1 Introduction

Kelly Cristina M. Gonçalves, Fernando A. S. Moura et Helio S. Migon

Précédent | Suivant

Les sondages sont depuis longtemps un moyen important d'obtenir de l'information exacte auprès d'une population finie. Par exemple, les gouvernements ont besoin de statistiques descriptives sur la population pour évaluer et mettre en œuvre leurs politiques. Au cours du premier tiers du XXe siècle, la principale préoccupation des spécialistes de la statistique officielle était d'établir une norme de pratique acceptable. Neyman (1934) a créé un cadre de ce type en introduisant des méthodes de randomisation dans le processus d'échantillonnage. Il préconisait l'utilisation de la distribution de randomisation, ou distribution aléatoire, induite par le plan de sondage pour évaluer les propriétés fréquentistes de diverses procédures. Il a également introduit la notion de stratification avec répartition optimale de la taille de l'échantillon et l'utilisation de probabilités de sélection inégales. Ses travaux sont considérés comme la pierre angulaire de la théorie des sondages fondée sur le plan de sondage et ont inspiré de nombreux auteurs. Par exemple, Horvitz et Thompson (1952) ont proposé une théorie générale de l'échantillonnage avec probabilités inégales et la méthode d'estimation pondérée par les probabilités, qui est connue sous le nom d'« estimateur de Horvitz-Thompson ».

Partout dans le monde, les organismes statistiques officiels ont trouvé la théorie des sondages fondée sur le plan de sondage très intéressante. Comme l'ont fait remarquer Skinner, Holt et Smith (1989), page 2, la raison principale de cet intérêt est qu'essentiellement, cette théorie ne dépend pas d'une loi de probabilité. En effet, depuis les travaux de Neyman, tous les progrès réalisés en théorie des sondages ont été fortement influencés par l'usage descriptif du sondage. Cette approche a eu pour conséquence un manque de développements théoriques concernant l'utilisation analytique des sondages, en particulier à des fins de prédiction. Dans certaines situations précises, l'approche fondée sur le plan de sondage s'est avérée inefficace, fournissant des prédicteurs inadéquats. Ainsi, l'estimation sur petits domaines et la présence de non-réponse ne peuvent pas être traitées par l'approche fondée sur le plan de sondage sans faire appel à des hypothèses implicites, ce qui équivaut à émettre l'hypothèse d'un modèle. Les partisans de l'approche fondée sur le plan de sondage soutiennent que l'inférence fondée sur un modèle dépend en grande partie des hypothèses du modèle, lesquelles pourraient ne pas être vérifiées. Par ailleurs, l'inférence par intervalle sur les paramètres de la population cible (habituellement les totaux et les moyennes) s'appuie sur le théorème central limite, qui n'est pas applicable dans de nombreuses situations pratiques, où la taille de l'échantillon n'est pas suffisamment grande et/ou les hypothèses d'indépendance des variables aléatoires concernées ne sont pas raisonnables.

Basu (1971) rejetait les estimations des quantités de population dépendantes de la règle d'échantillonnage, comme les probabilités d'inclusion. Selon lui, cette méthode d'estimation ne satisfaisait pas le principe de vraisemblance dont il était un partisan. Basu (1971) a créé l'exemple de l'éléphant de cirque pour montrer que l'estimateur de Horvitz-Thompson pouvait produire des estimations inappropriées et a proposé un estimateur de rechange. La question qui se pose est celle de savoir s'il est possible de concilier les deux approches. Dans le contexte du modèle de superpopulation, Zacks (2002) a montré que l'on peut retrouver certains estimateurs fondés sur le plan de sondage en utilisant une approche basée sur un modèle de régression généralisée. Little (2003) affirme qu'une spécification prudente du modèle, sensible au plan de sondage, permet de répondre aux préoccupations concernant les spécifications du modèle, et que la statistique bayésienne offre un traitement cohérent et unifié de l'inférence par sondage descriptive et analytique. Il a donné certains exemples afin d'illustrer comment l'inférence fondée sur le plan de sondage classique peut découler de la perspective bayésienne en utilisant certains modèles avec priors non informatifs.

Dans le contexte bayésien, une autre proposition intéressante en vue de concilier l'approche fondée sur le plan de sondage et celle fondée sur un modèle a été avancée par Smouse (1984). La méthode incorpore l'information a priori dans les modèles d'inférence en population finie en s'appuyant sur des méthodes bayésiennes d'estimation par les moindres carrés et nécessite seulement la spécification des premier et deuxième moments de la distribution concernée, qui décrivent les connaissances a priori au sujet des structures présentes dans la population. L'approche peut remplacer les méthodes de randomisation et se situe à mi-chemin entre deux visions extrêmes, à savoir les procédures fondées sur le plan de sondage d'une part et celles fondées sur des modèles de superpopulation d'autre part. Dans un rapport inédit, O'Hagan (1985) a présenté des estimateurs bayésiens linéaires dans certains contextes de sondage particuliers et O'Hagan (1987) a également dérivé des estimateurs bayésiens linéaires pour certains modèles de réponse randomisés. O'Hagan (1985) a pris en considération plusieurs structures de population, dont la stratification et la mise en grappes, en émettant des hypothèses appropriées au sujet des premier et deuxième moments, et a montré comment obtenir certains estimateurs fondés sur le plan fréquemment utilisés en temps que cas particuliers de cette approche plus générale. Il a également fait remarquer que ses estimations ne tenaient pas compte de l'échantillonnage non informatif. Il a cité Scott (1977) et fait le commentaire que l'échantillonnage informatif devrait être exécuté par une analyse bayésienne complète. Une référence importante concernant le traitement de l'échantillonnage informatif avec des modèles hiérarchiques figure dans Pfeffermann, Moura et Silva (2006).

La présentation de l'article est la suivante. La section 2 décrit de manière générale l'approche d'estimation bayésienne linéaire appliquée à un modèle de régression linéaire général pour la prédiction en population finie et montre comment obtenir certains estimateurs fondés sur le plan de sondage à titre de cas particuliers. À la section 3, un nouvel estimateur est proposé pour la situation pratique où de l'information auxiliaire est disponible. À la section 4, l'approche d'estimation bayésienne linéaire est étendue aux données catégoriques multiples. Enfin, la section 5 offre certaines conclusions et des suggestions de futures recherches.

Précédent | Suivant

Date de modification :