3 Estimation par la régression généralisée
Jan de Haan et Rens Hendriks
Précédent | Suivant
3.1 Une méthode GREG simple
A la présente section, nous décrivons
une approche de rechange pour mesurer le changement de prix des logements qui
s'appuie sur des données d'évaluation. Les évaluations foncières servent
maintenant d'information auxiliaire dans un cadre de régression généralisée
(GREG). Considérons le simple modèle de régression linéaire à deux variables
suivant :
où est le terme d'erreur. Contrairement aux
modèles de régression hédonique, qui postulent une relation causale entre le
prix de vente et un jeu de caractéristiques ayant trait à la
structure et à la localisation des unités de logement, ce modèle ne dit rien
sur la façon dont les prix des logements sont produits; l'équation (3.1)
est simplement un modèle descriptif.
L'estimation du modèle (3.1) par
la régression par les moindres carrés sur les données de l'échantillon donne les prix prédits
Les résidus de la régression pour sont En supposant un échantillonnage aléatoire,
comme auparavant, nous pouvons écrire l'estimateur de Horvitz-Thompson de la valeur moyenne sous la forme
Le remplacement de la moyenne
d'échantillon des évaluations, par son équivalent pour la population, donne l'estimateur par la régression
généralisée (GREG) :
La théorie de l'échantillonnage assisté
par modèle montre que les estimateurs GREG sont asymptotiquement sans biais sous le plan de sondage (Särndal
et coll. 1992), quel que soit le choix des variables explicatives. À moins
que l'échantillon soit petit, le biais peut être négligé. Il est évident que
l'estimateur GREG (3.4) sera plus efficace au sens où sa variance est
plus faible que l'estimateur de Horvitz-Thompson (3.3). Par conséquent,
l'estimateur GREG donnera habituellement de meilleurs résultats que
l'estimateur de Horvitz-Thompson en termes d'erreur quadratique moyenne (la
somme de la variance et du carré du biais).
La même procédure peut être appliquée à
la période de comparaison Après avoir estimé le modèle
par la régression par les moindres
carrés sur les données de l'échantillon de la période courante nous obtenons les prix prédits
ce qui mène à l'estimateur GREG de
la valeur moyenne du parc de logements à la période
où désigne les résidus de la régression à la
période Pour un parc de logements fixe, nous avons d'où et il s'ensuit que
L'estimateur GREG du changement de prix
des logements s'obtient simplement en prenant le ratio des équations (3.8) et (3.4):
où Un certain biais de petit échantillon
supplémentaire sera introduit en raison de la structure non linéaire (ratio).
Lorsque l'on utilise la régression par les moindres carrés ordinaires (MCO)
pour estimer les modèles (3.1) et (3.5), les moyennes d'échantillon non
pondérées des résidus de la régression dans (3.9), et sont égales à 0 et l'indice GREG se réduit à
Comme l'indique la première expression
dans le membre de droite de l'équation (3.10), l'approche GREG (MCO) consiste
essentiellement à imputer les prix pour la période de référence et pour la
période courante en utilisant les équations (3.2) et (3.6). La différence par
rapport à la méthode hédonique d'imputation
double tient à deux aspects : nous utilisons un modèle descriptif, et
non un modèle hédonique, pour estimer les prix prédits de sorte que nous ne pouvons pas parler de prix prédits sans
biais et nous imputons les prix de tous les logements faisant partie
du parc au lieu de ceux du sous-ensemble de logements échantillonnés.
3.2
Propriétés de l'indice GREG
L'indice GREG (MCO) possède plusieurs
propriétés intéressantes. Premièrement, son calcul est très simple. Une fois
que l'on a calculé la moyenne de population des évaluations foncières et les coefficients de régression pour la
période de référence et il suffit d'exécuter chaque mois une
régression des prix de vente en fonction des évaluations, puis d'introduire les
valeurs des coefficients et dans (3.10). Notons que l'indice GREG peut
s'écrire sous la forme d'un pseudo indice-chaîne :
Cela peut être utile en pratique,
surtout quand de nouvelles données d'évaluation deviennent disponibles. Les
nouvelles évaluations sont souvent fournies à l'organisme statistique avec un
délai important, pouvant dépasser un an. Les évaluations les plus récentes
doivent être utilisées pour deux raisons. La qualité des évaluations peut
s'améliorer avec le temps, ce qui semble avoir été le cas aux Pays-Bas
(de Vries et coll. 2009). En outre, l'hypothèse d'un parc de
logements fixe peut être relâchée afin que les logements nouvellement
construits puissent être intégrés par enchaînement; l'indice GREG chaîné tient
compte de la dynamique du parc de logements. Les mêmes avantages de
l'enchaînement s'appliquent à la méthode SPAR. Supposons que de nouvelles
évaluations foncières, se rapportant à la période soient disponibles à la période La série chronologique peut alors être mise à
jour par enchaînement, c'est-à-dire en multipliant par la variation d'un mois à l'autre où les coefficients sont maintenant ceux d'une
régression des prix de vente sur les évaluations foncières à la période
Deuxièmement, les erreurs-types de l'indice GREG peuvent être estimées assez
facilement en utilisant la matrice de variance-covariance des coefficients de
régression, qui est une sortie standard de la plupart des progiciels
statistiques. Une expression de l'erreur-type approximative est dérivée en
annexe. L'erreur-type de l'indice GEEG dépend de la qualité de l'ajustement du modèle de régression. Il est fort probable
que la valeur de pour la régression à la période de référence
soit plus élevée que pour les régressions à la période courante. Nous nous
attendons en effet à observer une forte relation linéaire entre les évaluations
foncières et les prix de vente à la période de référence des évaluations, mais
une relation probablement plus faible aux périodes ultérieures en raison des
différences de tendance des prix selon le type de logement ou la région. Il est
un peu plus compliqué d'établir une expression pour les erreurs-types approximatives
dans le cas de l'indice SPAR, parce que la variabilité d'échantillonnage des
évaluations moyennes est une source additionnelle d'erreur d'échantillonnage;
voir de Haan (2007).
Cette dernière remarque nous mène à la
troisième propriété de l'indice GREG, c'est-à-dire sa dépendance à l'égard de
la qualité des données d'évaluation.
Pour au moins deux raisons, il peut arriver que les évaluations foncières ne
représentent pas exactement les prix de transaction durant la période de
référence, de sorte que l'ajustement du modèle n'est pas parfait Les organismes chargés des évaluations
pourraient ne pas avoir accès (en temps réel) aux prix de vente réels et, par
conséquent, être obligés d'exercer leur propre jugement en se basant sur
d'autres renseignements. Toutefois, même s'ils connaissaient les prix de vente,
ces organismes pourraient encore décider de faire des ajustements lorsqu'ils
déterminent la valeur des biens immobiliers. On peut soutenir que le prix de
vente ne mesure pas toujours correctement la valeur de marché inconnue laquelle peut être considérée
comme une variable latente et a tendance à être plus
volatile. À cet égard, Francke (2010) et d'autres ont utilisé le terme de
bruit de transaction.
La manière dont les évaluations
foncières ont été déterminées aura une incidence sur l'erreur-type de l'indice
GREG. À condition que la qualité des données d'évaluation soit la même pour
tous les logements compris dans le parc, il n'existe aucun biais, puisque les
évaluations servent seulement de variables auxiliaires dans les régressions
exécutées sur les échantillons et de biens immobiliers vendus aux périodes 0 et Cependant, en général, nous nous attendons à
ce que la qualité des évaluations soit meilleure pour les biens appartenant à
l'échantillon de la période de référence où a eu lieu l'évaluation quoique cela varie fort probablement en
fonction de la méthode d'évaluation. Aux Pays-Bas, les biens immobiliers sont
évalués aux fins de l'impôt (impôt sur le revenu ainsi que les impôts
municipaux). Les municipalités sont chargées des évaluations. Plusieurs d'entre
elles évaluent les logements qui sont vendus durant la période de référence
(janvier) au moyen du prix de vente. Les logements qui n'ont pas été vendus
sont parfois évalués en les comparant à des logements négociés similaires. Il
semble que certaines municipalités utilisent une forme de régression hédonique
pour évaluer les logements, mais la méthodologie n'a malheureusement pas été
rendue publique. Pour plus de renseignements sur le système d'évaluation
foncière des Pays-Bas, voir de Vries et coll. (2009).
Jusqu'à présent, nous avons supposé que
la qualité des logements individuels ne varie pas au fil du temps. Cette
hypothèse est forte. Donc, la quatrième propriété et l'inconvénient le plus
important de la méthode GREG est que l'indice des prix résultants est
entaché d'un biais de changement de
qualité puisque l'on n'effectue pas d'ajustement explicite de la qualité.
La méthode SPAR ainsi que la méthode classique fondée sur les ventes répétées
présentent le même inconvénient. En principe, les méthodes de régression
hédonique permettent de traiter le problème du changement de qualité, quoi
qu'il puisse s'avérer difficile d'utiliser des variables de contrôle pour
toutes les caractéristiques influant sur le prix pertinentes, en particulier la
microlocalisation. La méthode SPAR tient compte automatiquement de la microlocalisation,
à condition naturellement que les évaluations foncières en tiennent
suffisamment compte, puisqu'elle est basée sur la méthode d'appariement de
modèles pour laquelle l'appariement est effectué au niveau de l'adresse.
3.3
Estimateur GREG de rechange
Statistics Netherlands calcule les
indices des prix des logements non seulement pour l'ensemble du pays, mais
aussi pour certains créneaux du marché du logement, selon le type de logement
(logements familiaux et appartements) et la région (provinces et grandes
villes), principalement pour répondre aux besoins des utilisateurs.
L'échantillon peut aussi être stratifié afin d'atténuer l'effet du biais de sélection dans l'échantillon.
Ce type de biais peut survenir si l'ensemble de logements vendus durant une
période particulière n'est pas une sélection aléatoire provenant du parc de
logements. L'indice national doit alors être calculé indirectement sous forme
d'une moyenne pondérée des indices de strate plutôt que directement d'après
toutes les observations.
Supposons que le parc total de
logements est subdivisé en strates non chevauchantes de taille L'indice des prix cible (2.3) peut alors être
réécrit sous la forme
où est l'indice des prix cible pour la strate Les parts de la valeur du parc de logements à
la période de référence qui servent de pondérations pour les indices
de strate, sont inconnues et doivent être estimées. En supposant que l'on
connaît les variables qui définissent les strates pour tout un choix naturel pour les pondérations serait
les parts fondées sur l'évaluation foncière Manifestement, les variables de logement qui
définissent les strates doivent être incluses dans le jeu de données
d'évaluation. Aux Pays-Bas, l'adresse et le type de logement sont inclus. Cela
permet une subdivision de la population en strates obtenues par classification
croisée de la localisation et du type de logement. Les évaluations foncières ne
sont peut-être pas toujours des estimations exactes de la valeur de marché
« réelle » des biens immobiliers individuels, mais au niveau de la
strate, nous nous attendons à ce que l'exactitude des évaluations moyennes soit
suffisante pour le calcul des pondérations.
Des techniques statistiques telles que
l'estimation GREG sont habituellement appliquées pour estimer les totaux ou les
moyennes pour de petits domaines pour lesquels le nombre d'observations est si
faible que les erreurs-types lorsque l'on utilise les estimateurs classiques
(de Horvitz-Thompson) ici le ratio des moyennes d'échantillon deviendraient inacceptablement grandes. Il convient de
mentionner que, même avec la méthode GREG, le schéma de stratification ne doit
pas être trop détaillé, car cela pourrait accroître excessivement la variance
des indices de strate, et donc, de l'indice agrégé. Fait peut-être encore plus
important, le biais de petit échantillon augmentera au point de devenir
éventuellement non négligeable pour les très petits échantillons.
Les régressions par les MCO des prix de
vente sur les évaluations foncières doivent maintenant être exécutées à chaque
période pour chaque strate afin de calculer l'indice GREG agrégé. L'indice GREG
(MCO) stratifié est donné par
Les écarts entre les coefficients
de pente d'une strate à l'autre pourraient résulter de
l'erreur d'échantillonnage ou refléter un phénomène réel. Celui-ci peut avoir
une importance particulière pour les périodes très éloignées de la période 0, car les
différents créneaux du marché du logement ont tendance à présenter des
tendances des prix variables. On pourrait effectuer un test afin de savoir si
tout écart entre les coefficients de pente reflète un phénomène réel.
Un modèle de rechange, à estimer sur le
jeu complet de données, comprendrait un terme d'ordonnée à l'origine unique,
mais des coefficients pouvant varier d'une strate à l'autre. Soit une variable indicatrice binaire qui prend la
valeur 1 si le bien immobilier appartient à la strate et 0 autrement. À la période le modèle
est estimé par la régression par
les MCO sur les données de l'échantillon ce qui donne les prix prédits pour De nouveau, la somme des résidus est égale à
zéro et le nouvel indice GREG (OMC) (non stratifié) devient
Le modèle (3.14) est plus souple
que le modèle original donnée par les équations (3.1) et (3.5), et
pourrait être utile si la proportionnalité entre les prix de vente et les
évaluations foncières n'est pas respectée. L'estimateur (3.15) se réduit à
l'indice GREG original (3.10) si les coefficients sont tous égaux. En pratique, cela n'arrivera
pas et (3.15) et (3.10) donneront des réponses différentes. Une raison
fréquemment avancée pour justifier l'utilisation des estimateurs GREG est que,
étant asymptotiquement sans biais, ils sont relativement robustes au choix du modèle. Donc, nous nous attendrions à ce que
l'effet de la spécification du modèle de rechange (3.15) soit modéré. Par
ailleurs, il est généralement reconnu dans la littérature que l'indépendance à
l'égard du modèle peut être un problème dans des circonstances particulières,
notamment lorsqu'on a affaire à des populations très variables et ayant
tendance à présenter des valeurs aberrantes. Par exemple, Hedlin, Falvey, Chambers et Kokic
(2001) soulignent qu'il est important de procéder à une recherche minutieuse
des spécifications du modèle, tandis que Beaumont et
Alavi (2004) se concentrent sur le traitement des valeurs aberrantes. Il
serait donc utile d'examiner l'effet de la spécification de ce modèle de
rechange.
Précédent | Suivant