Inférence bayésienne prédictive sur une proportion sous un modèle double pour petits domaines avec corrélations hétérogènes
Section 2. Modèles doubles bayésiens pour petits domaines et calculs
Nous considérons une population finie
de
domaines et de
grappes dans le
domaine, et nous supposons
qu’il existe
individus dans la
grappe dans le
domaine. Les réponses
binaires sont
pour
Nous supposons qu’un
échantillon aléatoire simple de
grappes est tiré du
petit domaine et qu’un
échantillon aléatoire simple de
individus est tiré des
grappes échantillonnées
provenant du
domaine. Ici, nous supposons
que les poids de sondage sont les mêmes dans toutes les grappes dans chaque
domaine. Soit
et
Notre cible est la proportion du
domaine dans la population
finie, qui est donnée par
où
Soit
les totaux des unités non échantillonnées des
grappes échantillonnées
et
les totaux des grappes non échantillonnées
En posant que
nous pouvons exprimer notre cible,
sous la forme
Pour faire une inférence au sujet de
nous ajustons des modèles bayésiens
hiérarchiques aux données. En utilisant la représentation bêta-binomiale, ces
modèles s’adaptent à la structure du plan double. Nous décrivons deux modèles, l’un
avec une corrélation homogène et l’autre avec des corrélations hétérogènes, ce
qui représente notre principale contribution à l’extension du modèle de Nandram (2015). À la section 2.1, nous
examinons le modèle bayésien hiérarchique avec corrélation homogène de Nandram (2015) et nous montrons comment le
rendre comparable à notre modèle bayésien hiérarchique avec corrélations
hétérogènes que nous décrivons à la section 2.2. À la section 2.3,
nous décrivons l’échantillonneur de Gibbs par blocs utilisé pour ajuster notre
modèle avec corrélations hétérogènes.
2.1 Une
revue du modèle double avec corrélation homogène
Nandram (2015) a décrit le modèle double pour petits domaines avec
corrélation homogène. Ici, nous examinons brièvement les principales hypothèses
qui le sous-tendent, à savoir
où
et
représentent les corrélations intragrappe et
intergrappes, respectivement. L’hypothèse est que
strictement. Notons que, dans un même domaine,
la corrélation intragrappe
c’est-à-dire la corrélation entre deux unités
dans une même grappe, est
Semblablement, dans un même domaine,
la corrélation intergrappes
c’est-à-dire la corrélation entre deux unités
dans deux grappes différentes, est
Ici, c’est
qui fait la distinction entre les modèles
simple et double, et quand
tend vers zéro, le modèle double devient le
modèle simple, Nandram (2015).
Pour ajuster le modèle spécifié par
(2.2) à (2.4), Nandram (2015) a recouru à
l’échantillonnage aléatoire et à la quadrature gaussienne pour exécuter des
intégrations numériques unidimensionnelles. Il a également utilisé
l’échantillonnage de Gibbs pour la comparaison et constaté de légères
différences. Cependant, notre généralisation aux corrélations hétérogènes
(nombre accru de paramètres) aboutit à des paramètres faiblement identifiés
supplémentaires et l’ajustement du modèle devient plus difficile. Donc, nous
intégrons des contraintes d’unimodalité
sur les distributions a priori des paramètres de domaine, ce qui permet
d’analyser des données éparses. Pour faire des comparaisons entre les deux
modèles, l’un avec des corrélations homogènes et l’autre avec des corrélations
hétérogènes, nous imposons aussi des contraintes d’unimodalité dans le modèle
spécifié par (2.2) à (2.4). Nos résultats sous ce modèle homogène légèrement
modifié sont semblables à ceux de Nandram
(2015).
Les méthodes exposées dans le présent
article permettent d’imposer l’unimodalité sur certaines distributions pour
faciliter l’estimation des paramètres faiblement identifiés. Les conditions
d’unimodalité sont suffisamment flexibles pour éviter de contraindre
excessivement les modèles. Pour une procédure bayésienne non paramétrique
complète, consulter Damien, Laud et Smith (1997). Donc, tout au long de nos
calculs, nous appliquons la contrainte d’unimodalité aux hyperparamètres de
Nous
imposons aussi des contraintes d’unimodalité similaires à la section 2.2
pour le modèle avec corrélations hétérogènes. D’où, nous donnons au modèle
spécifié par (2.2) à (2.5) le nom de modèle CHO
(pour corrélation homogène).
Pour ajuster le modèle, Nandram (2015) utilise la règle de
multiplication en obtenant
après le tirage
d’échantillons aléatoires de
à partir de leur densité a posteriori
conjointe, où
La densité a posteriori
conditionnelle des
est donnée par
et,
en posant que
et en agrégeant sur les
nous obtenons
Parce
que
et
et que, sachant
et
sont indépendants, après avoir obtenu les
échantillons des
il est facile de faire une inférence
bayésienne prédictive. Voir Nandram
(2015) pour des renseignements détaillés.
2.2 Un modèle double avec corrélations hétérogènes
Nous étendons le modèle CHO pour pouvoir traiter les corrélations
hétérogènes. Nos hypothèses sont
Notons
que le coefficient de corrélation intragrappe
introduit dans le modèle CHO est remplacé par
pour fournir le modèle bayésien hiérarchique
avec corrélations hétérogènes.
Comme pour le modèle CHO, nous imposons aussi a priori deux
ensembles de contraintes d’unimodalité,
L’annexe B
donne des preuves simples des inégalités susmentionnées en tant que critères
d’unimodalité et la façon d’intégrer ces contraintes dans nos calculs. Donc,
nous dénommons modèle CHE (pour
corrélations hétérogènes) le modèle bayésien hiérarchique spécifié par (2.6) à
(2.11).
De nouveau, à l’instar de Nandram (2015), nous montrons à l’annexe A
que, sous le modèle CHE,
En
d’autres mots, à l’intérieur du
domaine, le coefficient de
corrélation intragrappe est
et le coefficient de corrélation intergrappes
est
En appliquant le théorème de Bayes dans
le modèle CHE, la densité conjointe a posteriori
est facile à écrire. (Il
s’agit de la densité sans la constante de normalisation.) Donc, nous pourrions donner
à cette densité conjointe a posteriori le nom de posterior CHE.
Pour faire une inférence sur la
proportion dans la population finie,
nous tirons des échantillons
de
en utilisant la règle de
multiplication et l’échantillonneur de Gibbs par blocs. Cette procédure est
décrite à la section 2.3.
2.3 Calculs du posterior CHE
En premier lieu, notons que nous
agrégeons le posterior CHE sur les
et que nous utilisons ensuite
l’échantillonneur de Gibbs pour ajuster la densité a posteriori marginale
conjointe. Après avoir obtenu les échantillons, nous pouvons tirer des
échantillons des
à partir de densités a posteriori
conditionnelles des
en appliquant la règle de
multiplication.
Comme dans le modèle CHO, la densité a posteriori
conditionnelle des
est
Donc,
il est facile de tirer des échantillons des
une fois que les échantillons sont obtenus à
partir de la densité a posteriori conjointe de
Après élimination des
du posterior CHE par intégration, la densité a posteriori conjointe
marginale est donnée par
Les
densités a posteriori conditionnelles sont
et,
en posant
et
et
De
même, en posant
et
et
Le
problème de cette procédure est que
et
sont corrélés, parce qu’intuitivement, ils
dépendent tous deux uniquement de
à travers deux nombres,
et
et non les données,
Cela
donne un mauvais mélange dans l’échantillonneur de Gibbs. Par exemple,
et
où
et
Nandram (2015).
Autrement dit,
est corrélé à
et
Un problème similaire se manifeste dans
Par conséquent, afin de résoudre ces problèmes
de faible identifiabilité, nous utilisons l’échantillonneur de Gibbs par blocs
pour tirer des échantillons aléatoires de
L’échantillonneur de Gibbs par blocs
s’obtient en tirant
et
à tour de rôle de la densité a posteriori
conditionnelle jusqu’à la convergence, comme nous le décrivons plus bas. Les
deux densités a posteriori conditionnelles conjointes sont
et
Pour exécuter l’échantillonneur de Gibbs par blocs,
nous appliquons la règle de multiplication dans
et
voir, par exemple, Molina et coll. (2014)
et Toto et Nandram (2010).
D’abord, nous considérons
Nous éliminons
par intégration et obtenons
la densité a posteriori conditionnelle conjointe de
sachant
et
Ici, nous utilisons la somme de Riemann
par la méthode du point milieu pour éliminer par intégration tous les
Nous subdivisons l’intervalle
(0, 1) en
sous-intervalles
où
Alors, nous pouvons calculer
la distribution a posteriori conditionnelle conjointe de
comme il suit.
et
est la fonction de répartition correspondant à
qui est une fonction de densité de
Ensuite, nous éliminons également
par intégration en utilisant la quadrature
gaussienne au moyen des polynômes orthogonaux de Legendre,
où
sont les poids et
sont les racines du polynôme de Legendre sur
l’intervalle
Nous avons pris
dans nos calculs (de plus grandes valeurs de
ne font guère de différence).
Maintenant, nous pouvons utiliser une
méthode à grille univariée (par exemple, Molina, Nandram et Rao 2014 et Toto et Nandram
2010) en vue de tirer des échantillons de la densité a posteriori de
conditionnellement à
et
voir Ritter et Tanner (1992)
pour une description de l’échantillonneur de Gibbs «à grille ». Alors, conditionnellement à
nous obtenons la densité a posteriori
de
comme il suit,
Les
échantillons sont tirés de la densité a posteriori conditionnelle de
en utilisant de nouveau l’échantillonneur à
grille univariée. Par la suite, conditionnellement à
est tiré de
en utilisant l’échantillonneur à grille
univariée.
Pour la méthode à grille, nous divisons
l’intervalle unitaire en sous-intervalles de 0,01 de largeur, et nous
approximons la densité a posteriori conjointe par une distribution
discrète avec probabilités proportionnelles aux hauteurs de la distribution
continue aux points milieu de ces sous-intervalles. Notons que nous
introduisons un bruit aléatoire (jittering)
uniforme à l’intérieur de chaque intervalle sélectionné pour permettre
différents écarts avec probabilité de un (Nandram
2015). Même quand nous avons utilisé des sous-intervalles plus fins (par
exemple, largeur de 0,005), les résultats d’inférence ont été presque les
mêmes. Donc, nous utilisons les sous-intervalles de 0,01 de largeur; voir
Molina et coll. (2014). Lorsque la plupart de la distribution se trouve
près de l’une des bornes (par exemple, 0 ou 1), nous créons des intervalles de
plus petite largeur pour saisir les petites ou les grandes valeurs du
paramètre.
Deuxièmement, nous considérons
Nous éliminons
par intégration et obtenons
la densité a posteriori conditionnelle conjointe de
sachant
et
De nouveau, nous appliquons la somme de
Riemann par la méthode du point milieu pour éliminer par intégration tous les
et calculer la distribution a posteriori
conditionnelle conjointe de
où
et
est la fonction de répartition correspondant à
qui est une fonction de densité de
En utilisant la quadrature gaussienne au moyen
des polynômes orthogonaux de Legendre, nous pouvons éliminer
par intégration et obtenir la densité a posteriori
conditionnelle de
où
sont les poids et
sont les racines du polynôme de Legendre sur
l’intervalle
Alors, nous appliquons la méthode à
grille univariée afin de tirer des échantillons de la densité a posteriori
de
conditionnellement à
et
Par conséquent, nous pouvons
représenter la densité a posteriori conditionnelle de
par
et obtenir des échantillons de
en utilisant de nouveau l’échantillonneur à
grille univariée. Enfin, conditionnellement à
peut être tiré de
où nous utilisons également la méthode à
grille univariée.
Cet algorithme échantillonne
en tirant d’abord une
itération de
une itération de
puis une itération de
Ensuite, il échantillonne
en tirant d’abord une
itération de
une itération de
puis une itération de
La procédure complète se
poursuit jusqu’à la convergence. Cela revient à utiliser un échantillonneur de
Gibbs avec deux densités a posteriori conditionnelles, ce qui est, en
fait, l’échantillonneur de Gibbs par blocs. La construction de
l’échantillonneur de Gibbs par blocs est très efficace et il s’agit de l’une de
nos principales contributions dans le présent article. En fait, nous pourrions
donner à l’échantillonneur de Gibbs par blocs le nom d’échantillonneur de Gibbs
« à grille » par blocs (Ritter
et Tanner 1992).
Nous avons examiné la convergence de
l’échantillonneur de Gibbs par blocs en utilisant des tracés, des graphiques
d’autocorrélation et le test de stationnarité de Geweke. Les tracés (itérations en fonction du temps) renseignent
sur la durée de la période de rodage requise pour éliminer l’effet des valeurs
initiales. Les graphiques d’autocorrélation montrent la dépendance dans la
chaîne et, par conséquent, ceux présentant de fortes corrélations entre de
longs décalages sont le signe d’une mauvaise chaîne de mélange. Le test de Geweke compare les moyennes de la partie
initiale et de la partie ultérieure de la chaîne de Markov en utilisant une
statistique de score
où l’hypothèse nulle est que
la chaîne est stationnaire; les valeurs
sont toutes supérieures à
0,10. Nous avons utilisé les tracés, les graphiques d’autocorrélation et le
test de Geweke pour chaque paramètre afin
d’étudier la convergence de chaque exécution de l’échantillonneur de Gibbs par
blocs. Pour nos données, nous avons tiré 2 000 échantillons et en
avons utilisé 1 000 pour le rodage afin d’obtenir un échantillon de
1 000 itérations pour l’inférence. Cette période de rodage, qui est
basée sur les tracés et le test de Geweke,
est suffisamment longue pour obtenir des échantillons aléatoires. Les
corrélations sont toutes non significatives, et, ce qui est intéressant, nous
ne devons pas réduire les itérations. En outre, le test de Geweke donne la preuve de la stationnarité de
notre échantillonneur. Donc, nous disposons d’un échantillonneur de Gibbs par
blocs très efficace. L’exécution de la procédure en R prend quelques minutes.
Nous avons appliqué la même procédure pour notre étude en simulation.