3 Sélection fondée sur la pseudo-vraisemblance avec le BIC
Chen Xu, Jiahua Chen et Harold Mantel
Précédent | Suivant
3.1 Le BIC dans les enquêtes
Sous la
spécification du modèle décrite à la section 2, il est clair que, si la
mesure est observée pour chaque unité de la
population le caractère aléatoire des données
introduit par le plan de sondage probabiliste a complètement disparu. Dans
cette situation, la sélection de variables influentes est fondée sur la
population complète et les critères de sélection classiques élaborés dans des
conditions ne faisant pas appel au sondage (fondées purement sur le modèle)
demeurent valides pour l'inférence sous le modèle et le plan. En particulier,
soit un ensemble arbitraire de covariables, qui correspond à un
modèle possible de la forme (2.1). Le BIC fondé sur la population complète
(Schwarz 1978) sélectionne le modèle (covariables) qui minimise
où est la
fonction de vraisemblance pour la population complète et est le
maximiseur de fondé sur On peut
constater que le BIC (3.1) est une fonction décroissante de la vraisemblance
maximisée et une fonction croissante du nombre de variables incluses dans le
modèle. Donc, un plus petit BIC implique un modèle plus simple (moins de
variables explicatives), un meilleur ajustement (vraisemblance maximisée plus
élevée), ou les deux. La préférence est donnée à un modèle présentant un
équilibre entre la complexité et la qualité de l'ajustement.
Nous notons que le BIC sous population complète (3.1) est conceptuel, parce
que l'observation de pour toutes
les unités de est
habituellement impossible dans les applications. Souvent, on tire plutôt de un
échantillon représentatif contenant unités et les mesures sont observées en se
basant sur les unités échantillonnées. En raison de la structure de dépendance
intrinsèque des unités échantillonnées, il n'est généralement pas possible de
calculer une vraisemblance complète sur Comme
solution de rechange, pour l'inférence sous le modèle et le plan, on utilise
fréquemment une fonction de pseudo-log-vraisemblance, qui prend la forme
où désigne le
poids de sondage de la unité. Le paramètre d'échelle dans n'a aucune
incidence analytique sur l'inférence fondée sur la pseudo-vraisemblance. Pour
simplifier l'exposé, nous choisissons tel que est sans
biais sous le plan jusqu'à La
maximisation de sur mène à un
estimateur du maximum de pseudo-vraisemblance (EMPV) pour c.-à-d.
Sous les plans de sondage appropriés, est souvent
convergent en vers dans le
cadre de randomisation conjointe. L'idée d'utiliser la pseudo-vraisemblance
pour l'inférence sur les paramètres du modèle est largement répandue dans la
littérature (voir, p. ex., Binder 1983; Godambe et Thompson 1986; Molina
et Skinner 1992).
Dans le
présent article, nous tentons d'élaborer un analogue du critère BIC fondé sur
la pseudo-vraisemblance. Partant de la formulation de la super-population
décrite à la section 2, soit le coefficient dimensionnel
du modèle et soit la densité a priori de Alors, une fonction de
pseudo-densité marginale des données est donnée par
avec Donc, nous
pouvons considérer l'expression qui suit comme étant la pseudo-probabilité
a posteriori du modèle
où désigne
l'ensemble de tous les modèles possibles. Dans l'esprit de l'analyse
bayésienne, le modèle ayant la la plus
élevée est considéré comme étant celui que les données soutiennent le plus.
Puisque ne dépend
d'aucun modèle particulier, la la plus
élevée est donnée par le modèle qui maximise la correspondante. Lorsque l'on utilise le prior
uniforme et que l'on
choisit le facteur d'échelle de pondération comme étant on obtient
une approximation de Laplace sous certaines conditions de régularité (voir Xu
et Chen 2012) :
D'où, nous choisissons le modèle qui minimise
Comparativement au BIC sous population complète (3.1), le premier terme du BIC (3.4) est la pseudo-vraisemblance pondérée par les poids de sondage maximale, qui pourrait être utile pour éviter les erreurs dues à l’échantillonnage susceptibles de donner lieu à des inférences biaisées pour la population cible. Nous considérons (3.4) comme une version du BIC fondée sur la pseudo-vraisemblance dans le contexte des sondages. Dans le cadre de randomisation conjointe, nous établissons la cohérence de sélection lorsqu’on utilise le BIC (3.4) par une procédure d’application via la pseudo-vraisemblance pénalisée (PVP), comme nous le verrons à la section 4.
3.2 Application du BIC au moyen de la pseudo-vraisemblance pénalisée
Dans la
pratique, un moyen simple d'appliquer le BIC consiste à sélectionner le
meilleur sous-ensemble, en évaluant et comparant le BIC pour chaque modèle
possible. Cependant, cette procédure peut aboutir à des calculs impossibles
quand le nombre de covariables est grand. Pour la remplacer, des méthodes
basées sur la vraisemblance pénalisée ont été utilisées récemment comme
procédures de calcul efficaces pour appliquer un critère de sélection. Pour
exclure des variables du modèle, ces méthodes estiment que les coefficients de
ces variables sont nuls et réduisent les autres coefficients en conséquence. En
faisant varier la pénalité appliquée à la vraisemblance, nous pouvons obtenir
une série de modèles de parcimonie variable. Afin d'éviter une recherche
exhaustive sur l'entièreté de l'espace des modèles, on utilise un critère de
sélection pour choisir un modèle optimal parmi ces modèles parcimonieux.
L'efficacité de cette stratégie a été illustrée dans un contexte ne faisant pas
appel au sondage pour le critère BIC (Wang, Li et Tsai 2007; Liu, Wang et Liang
2011) et pour le critère GCV (Fan et Li 2001; Xie, Pan et Shen 2008) entre
autres.
Dans le même
esprit, nous proposons une procédure fondée sur la pseudo-vraisemblance pénalisée
(PVP) pour appliquer le BIC (3.4) aux données d'enquête. En particulier,
partant de la pseudo-vraisemblance (3.2) avec nous définissons l'estimateur
pénalisé pondéré par les poids de sondage qui minimise la fonction de
pseudo-vraisemblance pénalisée.
où est une
fonction de pénalité indicée par un paramètre d'ajustement qui
contrôle la taille de la pénalité. Moyennant un choix approprié de contient
des estimations nulles pour certains coefficients et produit donc
automatiquement un modèle parcimonieux. La parcimonie souhaitable de exige
habituellement que la fonction correspondante soit singulière à l'origine.
Certains choix fréquents de comprennent
la pénalité (Frank et
Friedman 1993; Tibshirani 1996), c.-à-d. avec
et la
pénalité SCAD (Fan et Li 2001), qui est définie par la dérivée suivante :
pour laquelle 3,7 est un choix fréquent.
En utilisant
des valeurs différentes de
pour une fonction
spécifiée correctement, produit
des modèles de parcimonie variable. Ces modèles parcimonieux (par rapport à )
forment naturellement une série des modèles possibles. Le BIC (3.4) peut alors
être utilisé pour choisir un modèle optimal parmi cette série. Plus
précisément, soit l'intervalle de valeurs de et soit un modèle produit par Nous traitons comme la série de modèles possibles
prise en considération et nous choisissons le modèle tel que Nous appelons cette procédure de
sélection la méthode du BIC fondée sur la pseudo-vraisemblance pénalisée
(BIC-PVP). Comparativement à la sélection classique du meilleur sous-ensemble,
la procédure BIC-PVP est axée sur les modèles qui sont produits par les
estimateurs analysés pondérés par les poids de sondage et, par conséquent, peut
demander nettement moins de calculs.
Précédent | Suivant