8 Dernières remarques

Jeremy Strief et Glen Meeden

Précédent

Dans le domaine de l'échantillonnage, la construction de pondérations relève souvent davantage de l'art que de la science. Il s'agit de l'une des conclusions que l'on peut tirer de l'article récent de Gelman (2007) et de la discussion qui l'accompagne. Il argumente en faveur d'une approche bayésienne pour construire les pondérations en utilisant des modèles de régression qui relient la caractéristique d'intérêt aux variables auxiliaires. Ici, nous avons présenté des arguments en faveur d'une approche bayésienne séquentielle qui exploite l'information présente dans les variables auxiliaires sans émettre l'hypothèse d'un modèle reliant la caractéristique d'intérêt à ces variables auxiliaires. La pondération résultante d'une unité de l'échantillon peut être interprétée de la manière habituelle comme étant le nombre d'unités de la population que l'unité en question représente.

Une pondération fréquentiste, disons w i , MathType@MTEF@5@5@+= feaagKart1ev2aaatCvAUfeBSjuyZL2yd9gzLbvyNv2CaerbuLwBLn hiov2DGi1BTfMBaeXatLxBI9gBaerbd9wDYLwzYbItLDharqqtubsr 4rNCHbGeaGqiVu0Je9sqqrpepC0xbbL8F4rqqrFfpeea0xe9LqFf0x e9q8qqvqFr0dXdHiVc=bYP0xb9sq=fFfeu0RXxb9qr0dd9q8qi0lf9 Fve9Fve9vapdbaqaaeGacaGaaiaabeqaamaabaabaaGcbaGaam4Dam aaBaaaleaacaWGPbaabeaakiaacYcaaaa@3C67@  est l'inverse de la probabilité d'inclusion, et ce nombre représente le nombre d'unités de la population représentées par une unité particulière dans l'échantillon. Donc, w i 1 MathType@MTEF@5@5@+= feaagKart1ev2aaatCvAUfeBSjuyZL2yd9gzLbvyNv2CaerbuLwBLn hiov2DGi1BTfMBaeXatLxBI9gBaerbd9wDYLwzYbItLDharqqtubsr 4rNCHbGeaGqiVu0Je9sqqrpepC0xbbL8F4rqqrFfpeea0xe9LqFf0x e9q8qqvqFr0dXdHiVc=bYP0xb9sq=fFfeu0RXxb9qr0dd9q8qi0lf9 Fve9Fve9vapdbaqaaeGacaGaaiaabeqaamaabaabaaGcbaGaam4Dam aaBaaaleaacaWGPbaabeaakiabgwMiZkaaigdaaaa@3E38@  pour tout i MathType@MTEF@5@5@+= feaagKart1ev2aaatCvAUfeBSjuyZL2yd9gzLbvyNv2CaerbuLwBLn hiov2DGi1BTfMBaeXatLxBI9gBaerbd9wDYLwzYbItLDharqqtubsr 4rNCHbGeaGqiVu0Je9sqqrpepC0xbbL8F4rqqrFfpeea0xe9LqFf0x e9q8qqvqFr0dXdHiVc=bYP0xb9sq=fFfeu0RXxb9qr0dd9q8qi0lf9 Fve9Fve9vapdbaqaaeGacaGaaiaabeqaamaabaabaaGcbaGaamyAaa aa@3A85@  et is w i N. MathType@MTEF@5@5@+= feaagKart1ev2aaatCvAUfeBSjuyZL2yd9gzLbvyNv2CaerbuLwBLn hiov2DGi1BTfMBaeXatLxBI9gBaerbd9wDYLwzYbItLDharqqtubsr 4rNCHbGeaGqiVu0Je9sqqrpepC0xbbL8F4rqqrFfpeea0xe9LqFf0x e9q8qqvqFr0dXdHiVc=bYP0xb9sq=fFfeu0RXxb9qr0dd9q8qi0lf9 Fve9Fve9vapdbaqaaeGacaGaaiaabeqaamaabaabaaGcbaWaaabeae aacaWG3bWaaSbaaSqaaiaadMgaaeqaaaqaaiaadMgacqGHiiIZcaWG ZbaabeqdcqGHris5aOGaeyisISRaamOtaiaac6caaaa@442F@  À la section 6, nous avons vu que, pour l'estimateur de Horvitz-Thompson, la somme des pondérations des unités n'est habituellement pas égale à la taille de la population, ce qui peut donner lieu à un mauvais estimateur, sauf dans des circonstances très particulières. Un autre problème des pondérations fréquentistes est qu'elles sont souvent ajustées  MathType@MTEF@5@5@+= feaagKart1ev2aqatCvAUfeBSjuyZL2yd9gzLbvyNv2CaerbuLwBLn hiov2DGi1BTfMBaeXatLxBI9gBaerbd9wDYLwzYbItLDharqqtubsr 4rNCHbGeaGqiVu0Je9sqqrpepC0xbbL8F4rqqrFfpeea0xe9Lq=Jc9 vqaqpepm0xbba9pwe9Q8fs0=yqaqpepae9pg0FirpepeKkFr0xfr=x fr=xb9adbaqaaeGaciGaaiaabeqaamaabaabaaGcbaacbaqcLbyaqa aaaaaaaaWdbiaa=nbiaaa@37C3@ après avoir observé l'échantillon  MathType@MTEF@5@5@+= feaagKart1ev2aqatCvAUfeBSjuyZL2yd9gzLbvyNv2CaerbuLwBLn hiov2DGi1BTfMBaeXatLxBI9gBaerbd9wDYLwzYbItLDharqqtubsr 4rNCHbGeaGqiVu0Je9sqqrpepC0xbbL8F4rqqrFfpeea0xe9Lq=Jc9 vqaqpepm0xbba9pwe9Q8fs0=yqaqpepae9pg0FirpepeKkFr0xfr=x fr=xb9adbaqaaeGaciGaaiaabeqaamaabaabaaGcbaacbaqcLbyaqa aaaaaaaaWdbiaa=nbiaaa@37C3@ pour s'assurer que les estimations fréquentistes concordent avec l'information a priori au sujet de la population (Kostanich et Dippo 2002). Après les ajustements, les pondérations peuvent être rééchelonnées de manière que leur somme soit égale à un total de population. Cependant, les pondérations fréquentistes ajustées ne dépendent plus uniquement du plan de sondage et elles ne représentent plus les inverses des probabilités d'inclusion. Les notions intuitives qui sous-tendent les pondérations fréquentistes portent par conséquent quelque peu à confusion. Avant les ajustements, les pondérations fréquentistes sont des fonctions du plan; par contre, après les ajustements, elles sont des fonctions du plan et d'autres informations a priori qui peuvent ou non être reliées au plan.

Les bayésiens pensent que, dans le contexte de l'échantillonnage, l'estimation est un problème de prédiction. Leurs prédictions sont fondées sur un modèle hypothétique qui peut donner lieu à l'attribution de pondération aux unités de l'échantillon. Voir, par exemple, l'article susmentionné de Gelman (2007) et Little (2004). Comme l'ont fait remarquer un certain nombre d'auteurs (Pfeffermann 1993), effectuer une analyse pondérée pour un modèle utilisant les inverses des probabilités d'inclusion peut protéger l'échantillonneur contre l'erreur de spécification du modèle. En outre, dans certaines situations, les deux approches peuvent produire des résultats similaires.

Récemment, Rao et Wu (2010) ont élaboré des méthodes faisant appel à une approche de pseudo-vraisemblance empirique et fondent leurs inférences sur des lois a posteriori de Dirichlet. Les procédures résultantes, même si elles sont sur le plan formel quelque peu similaires à celles dont il est question ici, s'appuient sur l'information a priori d'une manière différente. Pour ces auteurs, la majorité de l'information a priori doit être filtrée à travers le plan de sondage, alors que nous pensons que l'information a priori qui est souvent incluse dans le plan de sondage peut être utilisée directement pour produire de bonnes lois a posteriori. Pour le meilleur ou pour le pire, nous sommes plus proches du scénario bayésien classique où la loi a posteriori ne dépend pas du plan de sondage.

Ici, nous nous sommes concentrés sur l'utilisation de la loi a posteriori de Pólya contrainte (LPPC) pour produire un ensemble de pondérations fondé sur l'échantillon et sur l'information a priori, puis nous avons fait nos inférences en utilisant la loi a posteriori de Dirichlet pondérée (LPDP) fondée sur ces pondérations. Strief (2007) a considéré des exemples où les pondérations produites par la LPPC étaient utilisées dans les formules fréquentistes appropriées pour obtenir une estimation de la variance et a constaté que les résultats étaient comparables à ceux donnés par les méthodes classiques. On pourrait aussi imaginer de fonder leurs inférences sur la LPDP, mais en utilisant des poids fréquentistes, obtenus disons par des méthodes de calage (Särndal et Lundström 2005). Bien que cette option mérite d'être étudiée plus en profondeur, nous nous attendons à ce que ce genre d'approche donne lieu à des procédures inférencielles ayant de bonnes propriétés fréquentistes.

Dans l'approche fondée sur le plan de sondage, la convergence est une propriété importante que doit posséder un estimateur. Pour un cas particulier important, sous un plan EAS, les estimateurs selon la LPPC sont convergents. Cela est démontré dans Geyer et Meeden (2013).

Tout comme la LPPC, la LPDP possède une justification bayésienne séquentielle. Pour obtenir plus de détails, voir Strief (2007). Les pondérations utilisées dans la LPDP ont une formulation et une interprétation cohérentes. Il s'agit toujours d'une espérance a posteriori et leur somme est toujours égale à la taille de population. Elles représentent le nombre moyen de fois que chaque unité de l'échantillon apparaît dans une copie complète simulée de la population sous la LPPC. Cette moyenne est calculée par rapport à la loi uniforme sur toutes les copies possibles de la population qui contiennent juste les unités comprises dans l'échantillon et qui satisfont les contraintes données. Ces pondérations ne dépendent que du même type d'information a priori objective au sujet de la population que celle souvent utilisée pour définir et ajuster les pondérations fréquentistes. Il est donc possible d'y intégrer l'information a priori sans devoir spécifier explicitement une loi a priori.

Dans la plupart des cas, la pondération attribuée à une unité de l'échantillon dépend des autres unités de l'échantillon. Nous avons soutenu qu'après avoir sélectionné l'échantillon, on devrait raisonner conditionnellement. Autrement dit, étant donné l'échantillon, les pondérations devraient dépendre de toute l'information a priori disponible au sujet de la population, mais non de la façon dont l'échantillon a été sélectionné. (Nous supposons que la personne qui sélectionne l'échantillon et l'analyste ne font qu'un.) Toute procédure élaborée de cette manière devrait donner de bons résultats pour divers plans de sondage. Pour toute procédure, qu'elle soit fréquentiste, bayésienne ou bayésienne séquentielle, il s'agit du critère décisif : elle doit être évaluée d'après la façon dont elle se comporte sous échantillonnage répété conformément au plan de sondage d'intérêt.

Afin de mettre en œuvre les méthodes décrites ici, on doit d'abord utiliser la LPPC pour calculer les pondérations pour l'échantillon observé. Ensuite, on doit utiliser ces pondérations dans la LPDP pour simuler des copies complètes de la population. La première étape est la plus difficile, quoique le module externe polyapost la rend relativement simple pour toute personne familiarisée avec R. Une fois que les pondérations sont connues, il est facile d'exécuter la simulation à partir de la LPDP au moyen de nombreux progiciels. Cela rend notre approche plus pratique pour les ensembles de données d'enquêtes (comme l'IPUMS) qui sont présentés avec les pondérations connexes et sont utilisés par de multiples chercheurs. Une limite plus sérieuse tient au fait que nous n'avons pris en considération que des plans d'échantillonnage simples à un seul degré. Les travaux doivent se poursuivre afin d'étendre ces méthodes à des plans à plusieurs degrés plus compliqués. Si les contraintes sous-jacentes sont sélectionnées judicieusement, les procédures résultantes peuvent avoir de bonnes propriétés fréquentistes pour divers plans de sondage. Les pondérations fondées sur la méthode bayésienne séquentielle peuvent être vues comme notre meilleure approximation de la population inconnue étant donné les unités échantillonnées et l'information a priori dont nous disposons.

Remerciements

L'étude a été financée en partie par la subvention NSF Grant DMS 0406169.

Bibliographie

Binder, D. (1982). Non-parametric Bayesian models for samples from a finite population. Journal of the Royal Statistical Society, Séries B, 44, 388-393.

Booth, J.G., Bulter, R.W. et Hall, P. (1994). Bootstrap methods for finite population sampling. Journal of the American Statistical Association, 89, 1282-1289.

Cohen, A., et Strawderman, W. (1973). Admissible confidence interval and point estimation for translation of scale parameters. Annals of Statistics, 1, 545-550.

Gelman, A. (2007). Struggles with survey weighting and regression modeling (avec discussion). Statistical Science, 22, 153-188.

Geyer, C., et Meeden, G. (2013). Asymptotics for constrained Dirichlet distributions. Bayesian Analysis, 8, 89-110.

Ghosh, M., et Meeden, G. (1997). Bayesian Methods for Finite Population Sampling. Chapman and Hall, Londres.

Gross, S. (1980). Median estimation in survey sampling. In Proceedings of the Survey Research Methods Section, American Statistical Association, 181-184.

Hartley, H.O., et Rao, J.N.K. (1968). A new estimation theory for sample surveys. Biometrika, 55, 159-167.

Hu, M., Zhang, F., Cohen, M. et Salvucci, S. (1997). On the performance of replication-based variance estimation methods with small number of psus. Dans Proceedings of the Survey Research Methods Section, American Statistical Association.

Kostanich, D.L., et Dippo, C.S. (2002). Design and methodology: 63rv. Rapport technique, The U.S. Census Bureau et The Department of Labor Statistics.

Lazar, R., Meeden, G. et Nelson, D. (2008). Une approche bayésienne non informative de l'échantillonnage d'une population finie en utilisant des variables auxiliaires. Techniques d'enquête, 34, 1, 55-70.

Little, R.J. (2004). To model or not to model? Competing modes of inference for finite poplation sampling. Journal of the American Statistical Association, 99, 546-556.

Lo, A. (1988). A Bayesian bootstrap for a finite population. Annals of Statistics, 16, 1684-1695.

Meeden, G., et Vardeman, S. (1985). Bayes and admissible set estimation. Journal of the American Statistical Association, 80, 465-471.

Pfeffermann, D. (1993). The role of sampling weights when modeling survey data. Revue Internationale de Statistique, 61, 317-337.

Rao, J.N.K., et Wu, C. (2010).Bayesian pseudo empirical likelihood intervals for complex surveys. Journal of the Royal Statistical Society, Séries B, 72, 533-544.

R Development Core Team (2005). R: A language and environment for statistical computing. R Foundation for Statistical Computing, www.R-project.org.

Royall, R., et Cumberland, W. (1981). An empirical study of the ratio estimator and estimators of its variance. Journal of the American Statistical Association, 71, 657-664.

Royall, R., et Cumberland, W. (1985). Conditional coverage properties of finite population confidence intervals. Journal of the American Statistical Association, 80, 355-359.

Rubin, D. (1981). The Bayesian bootstrap. Annals of Statistics, 9, 130-134.

Ruggles, S., Sobek, M., Alexander, T., Fitch, C.A., Goeken, R., Hall, P.K., King, M. et Ronnander, C. (2004). Integrated public use microdata series: Version 3.0 [machine-readable database]. University of Minnesota.

Särndal, C.-E., et Lundström, S. (2005). Estimation in Surveys with Nonresponse. New York : John Wiley & Sons, Inc.

Särndal, C.-E., Swensson, B. et Wretman, J. (1992). Model Assisted Survey Sampling. New York : Springer.

Strief, J. (2007). Bayesian Sampling Weights: Toward a Practical Implementation of the Polya Posterior. Thèse de doctorat, University of Minnesota.

Zheng, H., et Little, R. (2003). Penalized spline model-based estimation of finite population total from probability-proportional-to-size samples. Journal of Official Statistics, 19, 99-117.

Zheng, H., et Little, R. (2004). Modèles non paramétriques mixtes à fonction spline pénalisée pour l'inférence au sujet d'une moyenne de population finie d'après des échantillons à deux degrés. Techniques d'enquête, 30, 2, 233-243.

Zheng, H., et Little, R. (2005). Inference for the population total from probability-proportional-to-size samples based on predictions from a penalized spline nonparametric model. Journal of Official Statistics, 21, 1-20.

Précédent

Date de modification :