Inférence bayésienne prédictive sur une proportion sous un modèle double pour petits domaines avec corrélations hétérogènes
Section 1. Introduction

Nous supposons qu’il existe plusieurs petits domaines, que chaque domaine est formé de plusieurs grappes et que chaque grappe contient un certain nombre d’unités (individus). Un échantillon aléatoire de grappes est tiré de chaque domaine et un échantillon aléatoire d’unités est tiré de chaque grappe échantillonnée. Il s’agit d’un plan d’échantillonnage double; voir Rao et Molina (2015). En cas d’échantillonnage en grappes, les unités à l’intérieur d’une grappe sont généralement positives et cette corrélation peut avoir une grande incidence sur l’inférence. Nous examinons cette situation pour les réponses binaires; voir Nandram (2015) qui a défini une corrélation intragrappe (entre deux unités dans la même grappe) et une corrélation intergrappes (entre deux unités dans deux grappes différentes du même domaine). Nous étendons le modèle de Nandram (2015), qui suppose que la corrélation demeure constante sur tous les domaines, pour traiter le cas où les corrélations peuvent être différentes. Nous nous intéressons à la proportion de la population finie pour chaque domaine, et comme Nandram (2015), nous utilisons un modèle bayésien hiérarchique à cette fin.

Lorsque les données présentent les corrélations susmentionnées, la corrélation intragrappe pose un problème statistique qui aboutit à une taille effective d’échantillon plus petite et, par conséquent, à une plus forte variabilité des estimations. Donc, quand il existe un effet de grappe, les analyses fondées sur l’hypothèse d’indépendance des unités donneront généralement des valeurs p MathType@MTEF@5@5@+= feaagKart1ev2aqatCvAUfeBSjuyZL2yd9gzLbvyNv2CaerbuLwBLn hiov2DGi1BTfMBaeXatLxBI9gBaerbd9wDYLwzYbItLDharqqtubsr 4rNCHbGeaGqiFu0Je9sqqrpepC0xbbL8F4rqqrFgFv0dd9Wqpe0dd9 qqaqFeFr0xbbG8FaYPYRWFb9fi0xi9s8vr0db9Ff0dbbG8Fq0Jfr=x fr=xfbpdbaqaaeGaciGaaiaabeqaamaabaabaaGcbaGaamiCaiaayk W7aaa@3728@ plus petites (c’est-à-dire rejet quand cela ne devrait pas être le cas). Rao et Scott (1981, 1984) ont étudié ce problème et présenté de simples corrections de la statistique du khi carré classique pour le test d’indépendance dans des tableaux de contingence à double entrée sous un plan d’échantillonnage complexe (par exemple, échantillonnage en grappes à deux degrés).

Nandram et Sedransk (1993) ont présenté un modèle bayésien hiérarchique sous échantillonnage en grappes à deux degrés. Il s’agit du plan que nous appliquons dans chaque domaine dans le cas d’un plan d’échantillonnage double avec réponses binaires. En tant qu’analogue discret du modèle pour l’échantillonnage en grappes à deux degrés avec des données normales (Scott et Smith 1969), ce modèle fait une inférence au sujet de la proportion globale dans la population finie. Ce modèle a également été étendu par Nandram (1998) à des données multinomiales, ce qui peut être considéré comme un analogue bayésien du modèle multinomial-Dirichlet pour l’échantillonnage en grappes (Brier 1980).

En ce qui concerne la modélisation double, un nombre restreint d’études portent sur les variables de réponse continues et presque aucune ne s’applique aux données discrètes (binaires). La plupart des analyses relatives à la modélisation double sont fondées sur le cadre bayésien empirique. Fuller et Battese (1973) ont présenté des modèles de régression à erreurs emboîtées simples et doubles. Ghosh et Lahiri (1988) ont étudié l’échantillonnage à plusieurs degrés sous linéarité a posteriori en utilisant des méthodes bayésiennes ainsi que bayésiennes empiriques. Sous l’échantillonnage en grappes à deux et à trois degrés, l’estimation des modèles de régression avec structure d’erreurs emboîtées et variances d’erreur inégales a été examinée plus en profondeur par Stukel et Rao (1997). Des modèles pour petits domaines sous modèles de régression à erreurs emboîtées doubles ont également été étudiés par Stukel et Rao (1999); voir Rao et Molina (2015) pour une synthèse. Nandram (2015) a proposé un modèle bayésien hiérarchique pour les données binaires issues d’un plan d’échantillonnage double.

Nandram (2015) a montré qu’il est important de tenir compte du plan d’échantillonnage dans chaque domaine. En particulier, à l’instar de Rao et Scott (1981, 1984), il a établi que, si un modèle ne traduit pas le plan d’échantillonnage en grappes à deux degrés dans chaque petit domaine, le résultat sera trop optimiste. Autrement dit, la variabilité sera trop faible. Il s’avère aussi que les estimations ponctuelles pourraient être différentes si l’on omet de tenir compte de l’échantillonnage en grappes à deux degrés. Il a aussi remarqué qu’il existe d’autres situations où l’on pourrait observer le résultat opposé. Ainsi, sous un plan stratifié plutôt qu’un plan d’échantillonnage en grappes à deux degrés, la précision augmentera dans chaque domaine (c’est-à-dire pour chaque domaine, l’effet de plan sera inférieur à un). Consulter Nandram, Bhatta, Sedransk et Bhadra (2013) pour une analyse bayésienne de ce problème.

Afin d’accroître la flexibilité et la généralité du modèle bayésien hiérarchique double de Nandram (2015), nous généralisons ce dernier afin d’y intégrer des corrélations intragrappe inégales. Notre idée est d’étendre le modèle de Nandram (2015) en considérant une couche supplémentaire pour permettre à la corrélation intragrappe de varier d’un domaine à l’autre dans le plan d’échantillonnage double et de comparer le modèle double avec corrélation homogène (constante sur tous les domaines) et celui avec corrélations hétérogènes (variables d’un domaine à l’autre). Comme ceux du modèle homogène, les paramètres du modèle hétérogène sont identifiés faiblement. L’utilisation d’un échantillonneur Monte Carlo par chaîne de Markov pour ajuster un tel modèle peut donner lieu à une dépendance de grande portée, et il sera difficile de surveiller la convergence d’un échantillonneur de Gibbs. Nandram (2015) a montré comment contourner la difficulté que créent ces paramètres faiblement identifiés en utilisant des tirages aléatoires. Molina, Nandram et Rao (2014), ainsi que Toto et Nandram (2010) discutent de tirages aléatoires similaires, en ayant évité entièrement l’ajustement de modèles Monte Carlo par chaîne de Markov. Malheureusement, le recours à des tirages aléatoires pour ajuster le modèle hétérogène n’est pas simple; nous sommes forcés d’utiliser l’échantillonneur de Gibbs.

Nous utilisons l’échantillonneur de Gibbs par blocs pour ajuster notre modèle double pour petits domaines. Deux difficultés se posent. Premièrement, les densités a posteriori conditionnelles des paramètres de corrélation peuvent être multimodales. Deuxièmement, certains paramètres peuvent être reliés de façon complexe. Durant l’utilisation d’un échantillonneur Monte Carlo par chaîne de Markov, ces situations risquent toutes deux aboutir à une dépendance de grande portée dans les itérations. Donc, pour essayer de contourner ces difficultés, nous avons appliqué une contrainte d’unimodalité aux densités a priori des paramètres de domaine et nous avons utilisé l’échantillonneur de Gibbs par blocs pour effectuer le tirage simultané de groupes de paramètres. Les deux stratégies accroissent la complexité, mais donnent des échantillonneurs nettement mieux ajustés.

En résumé, nous étendons le modèle de Nandram (2015) afin de tenir compte des corrélations hétérogènes. Le modèle avec corrélations hétérogènes est souhaitable, parce que si l’on suppose que la corrélation ne varie pas avec le domaine alors qu’elle le fait en réalité, les résultats pourraient être inexacts. Manifestement, cette extension de Nandram (2015) est une importante contribution. Toutefois, nous rencontrons trois difficultés.

  1. Les corrélations hétérogènes introduisent des paramètres faiblement identifiables dans le modèle.
  2. Contrairement à Nandram (2015), des méthodes Monte Carlo par chaîne de Markov sont nécessaires pour ajuster le modèle.
  3. Une contrainte unimodale utile est imposée sur les hyperparamètres pour faciliter l’obtention d’un mélange approprié.

Nous présentons une construction novatrice d’un échantillonneur de Gibbs « à grille » (pour griddy) par blocs pour ajuster le modèle avec corrélations hétérogènes. Notre modèle est soumis à des tests approfondis, allant au-delà de Nandram (2015).

Dans le présent article, nous considérons l’inférence bayésienne prédictive sur les proportions d’un certain nombre de petits domaines dans une population finie quand on applique un plan d’échantillonnage en grappes dans chaque domaine. Dans nos principales contributions, nous utilisons un modèle bayésien hiérarchique contenant des corrélations intragrappe inégales pour faire une inférence a posteriori sur la proportion de chaque domaine dans la population finie. À la section 2, nous décrivons en détail le modèle hétérogène. En particulier, en guise de motivation et de mise à jour, nous commençons par passer brièvement en revue le modèle homogène de Nandram (2015). Nous montrons que certains paramètres peuvent être identifiés faiblement. Nous décrivons aussi les calculs pour tirer un échantillon aléatoire de la distribution a posteriori en utilisant l’échantillonneur de Gibbs par blocs. À la section 3, afin de comparer les modèles avec corrélations homogènes et avec corrélations hétérogènes, nous présentons un exemple s’appuyant sur la Third International Mathematics and Science Study (TIMSS), ainsi qu’une petite étude en simulation. Enfin, à la section 4, nous exposons nos conclusions et les futures orientations de la recherche. Les annexes A et B fournissent les preuves et des renseignements complémentaires.


Date de modification :