3 Sélection fondée sur la pseudo-vraisemblance avec le BIC

Chen Xu, Jiahua Chen et Harold Mantel

3.1 Le BIC dans les enquêtes

Sous la spécification du modèle décrite à la section 2, il est clair que, si la mesure $(y_{i}, x_{i})$ est observée pour chaque unité de la population $D,$ le caractère aléatoire des données introduit par le plan de sondage probabiliste a complètement disparu. Dans cette situation, la sélection de variables influentes est fondée sur la population complète et les critères de sélection classiques élaborés dans des conditions ne faisant pas appel au sondage (fondées purement sur le modèle) demeurent valides pour l'inférence sous le modèle et le plan. En particulier, soit $s \subseteq {1, \dots, p}$ un ensemble arbitraire de $τ (s)$ covariables, qui correspond à un modèle possible de la forme (2.1). Le BIC fondé sur la population complète (Schwarz 1978) sélectionne le modèle (covariables) qui minimise

${BIC}_{N} (s) = - 2 l_{N} ({\overset{⌣}{β}}_{s}) + τ (s) \log N, (3.1)$

où $l_{N} (β) = \sum_{i = 1}^{N} \log f (y_{i}; x_{i} β)$ est la fonction de vraisemblance pour la population complète et ${\overset{⌣}{β}}_{s}$ est le maximiseur de $l_{N} (β)$ fondé sur $s .$ On peut constater que le BIC (3.1) est une fonction décroissante de la vraisemblance maximisée et une fonction croissante du nombre de variables incluses dans le modèle. Donc, un plus petit BIC implique un modèle plus simple (moins de variables explicatives), un meilleur ajustement (vraisemblance maximisée plus élevée), ou les deux. La préférence est donnée à un modèle présentant un équilibre entre la complexité et la qualité de l'ajustement.

Nous notons que le BIC sous population complète (3.1) est conceptuel, parce que l'observation de $(y_{i}, x_{i})$ pour toutes les unités de $D$ est habituellement impossible dans les applications. Souvent, on tire plutôt de $D$ un échantillon représentatif $d = {i_{1}, \dots, i_{n}} \subset {1, \dots, N}$ contenant $n$ unités et les mesures sont observées en se basant sur les unités échantillonnées. En raison de la structure de dépendance intrinsèque des unités échantillonnées, il n'est généralement pas possible de calculer une vraisemblance complète sur $d .$ Comme solution de rechange, pour l'inférence sous le modèle et le plan, on utilise fréquemment une fonction de pseudo-log-vraisemblance, qui prend la forme

$l_{n} (β) = \sum_{i \in d} w_{i} \log f (y_{i}; β) (3.2)$

où $w_{i} = k / P (i \in d)$ désigne le poids de sondage de la $i^{e}$ unité. Le paramètre d'échelle $k$ dans $w_{i}$ n'a aucune incidence analytique sur l'inférence fondée sur la pseudo-vraisemblance. Pour simplifier l'exposé, nous choisissons $k = n / N$ tel que $n^{- 1} l_{n} (β)$ est sans biais sous le plan jusqu'à $N^{- 1} l_{N} (β) .$ La maximisation de $l_{n} (β)$ sur $β$ mène à un estimateur du maximum de pseudo-vraisemblance (EMPV) $\hat{β}$ pour $β,$ c.-à-d.

$\hat{β} = arg \max_{β} l_{n} (β) .$

Sous les plans de sondage appropriés, $\hat{β}$ est souvent convergent en $n^{- \frac{1}{2}}$ vers $β$ dans le cadre de randomisation conjointe. L'idée d'utiliser la pseudo-vraisemblance pour l'inférence sur les paramètres du modèle est largement répandue dans la littérature (voir, p. ex., Binder 1983; Godambe et Thompson 1986; Molina et Skinner 1992).

Dans le présent article, nous tentons d'élaborer un analogue du critère BIC fondé sur la pseudo-vraisemblance. Partant de la formulation de la super-population décrite à la section 2, soit $β_{s},$ le coefficient $τ (s) $ dimensionnel du modèle $s$ et soit $ν_{s},$ la densité a priori de $β_{s} .$ Alors, une fonction de pseudo-densité marginale des données est donnée par

$P_{n} (y | s) = \int L_{n} (y; β_{s}) ν_{s} (β_{s}) d β_{s}$

avec $L_{n} (y; β_{s}) = \exp {l_{n} (y; β_{s})} .$ Donc, nous pouvons considérer l'expression qui suit comme étant la pseudo-probabilité a posteriori du modèle $s :$

$P_{n} (s | y) = \frac{P_{n} (y | s) P (s)}{\sum_{s \in S} P (s) P_{n} (y | s)}, (3.3)$

où $S$ désigne l'ensemble de tous les modèles possibles. Dans l'esprit de l'analyse bayésienne, le modèle ayant la $P_{n} (s | y)$ la plus élevée est considéré comme étant celui que les données soutiennent le plus. Puisque $\sum_{s \in S} P (s) P_{n} (y | s)$ ne dépend d'aucun modèle particulier, la $P_{n} (s | y)$ la plus élevée est donnée par le modèle qui maximise la $P_{n} (y | s) P (s)$ correspondante. Lorsque l'on utilise le prior uniforme $P (s) = ζ$ et que l'on choisit le facteur d'échelle de pondération comme étant $k = n / N,$ on obtient une approximation de Laplace sous certaines conditions de régularité (voir Xu et Chen 2012) :

$- 2 \log {P_{n} (y | s)} = - 2 l_{n} ({\hat{β}}_{s}) + τ (s) \log n + O_{p} (1) .$

D'où, nous choisissons le modèle $s$ qui minimise

${BIC}_{n} (s) = - 2 l_{n} ({\hat{β}}_{s}) + τ (s) \log n . (3.4)$

Comparativement au BIC sous population complète (3.1), le premier terme du BIC (3.4) est la pseudo-vraisemblance pondérée par les poids de sondage maximale, qui pourrait être utile pour éviter les erreurs dues à l’échantillonnage susceptibles de donner lieu à des inférences biaisées pour la population cible. Nous considérons (3.4) comme une version du BIC fondée sur la pseudo-vraisemblance dans le contexte des sondages. Dans le cadre de randomisation conjointe, nous établissons la cohérence de sélection lorsqu’on utilise le BIC (3.4) par une procédure d’application via la pseudo-vraisemblance pénalisée (PVP), comme nous le verrons à la section 4.

3.2 Application du BIC au moyen de la pseudo-vraisemblance pénalisée

Dans la pratique, un moyen simple d'appliquer le BIC consiste à sélectionner le meilleur sous-ensemble, en évaluant et comparant le BIC pour chaque modèle possible. Cependant, cette procédure peut aboutir à des calculs impossibles quand le nombre de covariables est grand. Pour la remplacer, des méthodes basées sur la vraisemblance pénalisée ont été utilisées récemment comme procédures de calcul efficaces pour appliquer un critère de sélection. Pour exclure des variables du modèle, ces méthodes estiment que les coefficients de ces variables sont nuls et réduisent les autres coefficients en conséquence. En faisant varier la pénalité appliquée à la vraisemblance, nous pouvons obtenir une série de modèles de parcimonie variable. Afin d'éviter une recherche exhaustive sur l'entièreté de l'espace des modèles, on utilise un critère de sélection pour choisir un modèle optimal parmi ces modèles parcimonieux. L'efficacité de cette stratégie a été illustrée dans un contexte ne faisant pas appel au sondage pour le critère BIC (Wang, Li et Tsai 2007; Liu, Wang et Liang 2011) et pour le critère GCV (Fan et Li 2001; Xie, Pan et Shen 2008) entre autres.

Dans le même esprit, nous proposons une procédure fondée sur la pseudo-vraisemblance pénalisée (PVP) pour appliquer le BIC (3.4) aux données d'enquête. En particulier, partant de la pseudo-vraisemblance (3.2) avec $k = n / N,$ nous définissons l'estimateur pénalisé pondéré par les poids de sondage ${\hat{β}}_{λ},$ qui minimise la fonction de pseudo-vraisemblance pénalisée.

$Q_{n} (β) = l_{n} (β) - n \sum_{j = 1}^{p} ϕ_{λ} (| β_{j} |), (3.5)$

où $ϕ_{λ} (.)$ est une fonction de pénalité indicée par un paramètre d'ajustement $λ$ qui contrôle la taille de la pénalité. Moyennant un choix approprié de $ϕ_{λ} (.), {\hat{β}}_{λ}$ contient des estimations nulles pour certains coefficients et produit donc automatiquement un modèle parcimonieux. La parcimonie souhaitable de ${\hat{β}}_{λ}$ exige habituellement que la fonction $ϕ_{λ} (.)$ correspondante soit singulière à l'origine. Certains choix fréquents de $ϕ_{λ} (.)$ comprennent la pénalité $L_{γ}$ (Frank et Friedman 1993; Tibshirani 1996), c.-à-d. $ϕ_{λ} (| β |) = λ {| β |}^{γ}$ avec $γ \in (0, 1],$ et la pénalité SCAD (Fan et Li 2001), qui est définie par la dérivée suivante :

${ϕ^{'}}_{λ} (| β |) = λ {I (| β | \leq λ) + \frac{{(a λ - | β |)}_{+}}{(a - 1) λ} I (| β | > λ)} (3.6)$

pour laquelle $a =$ 3,7 est un choix fréquent.

En utilisant des valeurs différentes de $λ$ pour une fonction $ϕ_{λ} (.)$ spécifiée correctement, ${\hat{β}}_{λ}$ produit des modèles de parcimonie variable. Ces modèles parcimonieux (par rapport à $λ$ ) forment naturellement une série des modèles possibles. Le BIC (3.4) peut alors être utilisé pour choisir un modèle optimal parmi cette série. Plus précisément, soit $Ω$ l'intervalle de valeurs de $λ$ et soit $s_{λ}$ un modèle produit par ${\hat{β}}_{λ} .$ Nous traitons $S_{Ω} = {s_{λ} : λ \in Ω}$ comme la série de modèles possibles prise en considération et nous choisissons le modèle $s * \in S_{Ω}$ tel que ${BIC}_{n} (s *) = \min_{λ \in Ω} BIC (s_{λ}) .$ Nous appelons cette procédure de sélection la méthode du BIC fondée sur la pseudo-vraisemblance pénalisée (BIC-PVP). Comparativement à la sélection classique du meilleur sous-ensemble, la procédure BIC-PVP est axée sur les modèles qui sont produits par les estimateurs analysés pondérés par les poids de sondage et, par conséquent, peut demander nettement moins de calculs.

Précédent | Suivant

Date de modification :: 2017-09-20

Sélection de la langue

Recherche et menus

Recherche

Publications

Techniques d’enquête

Recherche par

3 Sélection fondée sur la pseudo-vraisemblance avec le BIC

3.1 Le BIC dans les enquêtes

3.2 Application du BIC au moyen de la pseudo-vraisemblance pénalisée