7 Certaines conclusions
Jae Kwang Kim et Changbao Wu
Précédent
Les méthodes de rééchantillonnage offrent une
alternative asymptotiquement équivalente aux méthodes de linéarisation, mais
sont plus commodes et plus souples sur le plan opérationnel. Nous nous sommes
concentrés sur des paramètres de population qui sont des fonctions lisses des
moyennes ou des totaux. Nos résultats théoriques et nos études par simulation
limitées montrent que les stratégies proposées pour construire des poids de
rééchantillonnage parcimonieux et efficaces donnent de bons résultats pour
l'estimation de la variance et les intervalles de confiance. Néanmoins, un
certain nombre de problèmes doivent être étudiés plus en profondeur.
Premièrement, pour des paramètres complexes tels que les coefficients de
corrélation de population, les estimateurs de la variance par rééchantillonnage
parcimonieux ne sont pas très stables. Deuxièmement, d'autres preuves de
l'efficacité des stratégies proposées pour les grandes enquêtes complexes
conjuguées à l'utilisation de poids bootstrap ou jackknife généraux sont
nécessaires. Troisièmement, il n'est pas certain que les poids de
rééchantillonnage parcimonieux seront efficaces pour des paramètres qui sont
des fonctions non lisses des moyennes ou des totaux, tels que les quantiles de
population, pour lesquels on sait que les intervalles de confiance de la
théorie normale sont inefficaces (Sitter et Wu 2001).
Une autre question importante est celle de
l'application éventuelle des méthodes proposées à des paramètres et à des
estimateurs définis au moyen d'équations d'estimation. Soit défini comme étant la solution de
(7.1)
Soit obtenu en résolvant une version fondée sur
l'échantillon de (7.1) donnée par
(7.2)
Les analyses par la régression ou par la régression
logistique en utilisant des données d'enquête complexes peuvent être
considérées comme des cas particuliers de forme générale donnés par (7.1) et
(7.2). La variance de type sandwich habituelle de est donnée par
Nous pouvons maintenant obtenir un estimateur de la
variance si nous remplaçons par à et estimons en appliquant la méthode d'estimation de la
variance par rééchantillonnage à avec Pour des discussions détaillées des équations
d'estimation et de l'échantillonnage, consulter entre autres, Binder (1983),
Skinner (1989), et Godambe et Thompson (2009).
Arriver à une estimation efficace de la variance en
utilisant un nombre limité de jeux de poids de rééchantillonnage est un
problème de recherche important du point de vue tant théorique que pratique.
Les poids de rééchantillonnage entièrement efficaces conçus en suivant la
procédure décrite à la section 2 peuvent être traités comme des jeux de
poids initiaux si la taille de l'échantillon est grande. En principe, les stratégies que
nous proposons à la section 3 pour produire des poids de rééchantillonnage
parcimonieux et efficaces peuvent être combinées avec d'autres jeux de poids de
rééchantillonnage initiaux, y compris les poids bootstrap (Shao 1996) ou les
poids jackknife avec suppression d'un groupe (Kott 2001). On devrait également
inclure autant de variables pertinentes que possible dans l'étape de calage, afin
que les poids de rééchantillonnage calés finaux ne soient pas seulement
parcimonieux, mais également efficaces pour l'obtention d'estimateurs de la
variance pour une grande classe d'estimateurs. Des extensions de la méthode
proposée afin de traiter les poids calés ou les corrections de la non-réponse
sont en cours d'étude.
Remerciements
Nous remercions deux examinateurs anonymes et le
rédacteur associé de leurs commentaires très utiles. Les présents travaux ont
pour origine les discussions initiales entre le premier auteur J.K. Kim et
le professeur Randy Sitter de la Simon Fraser University qui a disparu en
mer tragiquement durant une expédition en kayak en 2007. Les auteurs souhaitent
dédier le présent article à la mémoire du professeur Sitter qui était également
le superviseur de la thèse de doctorat du deuxième auteur C. Wu. Les
travaux de recherche de J.K. Kim ont été financés en partie par une
entente de coopération entre le Natural Resources Conservation Service du US
Department of Agriculture et la Iowa State University. Les travaux de recherche
de C. Wu ont été financés par des subventions du Conseil de recherches en
sciences naturelles et en génie du Canada et du réseau des mathématiques et des
technologies de l'information et des systèmes complexes (MITACS).
Annexe
A Preuve du théorème
2
En vertu de l'hypothèse (4.2), nous avons
qui, combiné à (4.3), implique que
(A.1)
où et Soit Nous pouvons écrire
où et est un point intérieur sur le segment de
droite compris entre et En vertu de (A.1), nous avons
(A.2)
Définissons
Par construction, nous avons, pour tout et
En vertu de la continuité de à et du fait que nous avons que, pour tout il existe un tel que Cela, conjugué à (A.2), implique que
(A.3)
Maintenant, nous avons
(A.4)
où
Notons que (4.4) implique que
(A.5)
En vertu des arguments de linéarisation classique,
nous avons en probabilité. En outre, en vertu de (A.3) et
(A.5), nous avons et Cela établit (4.5).
B Preuve du théorème 3
En combinant (3.10) et (3.11) et en ignorant les
termes d'ordre plus faible, nous avons
où est la limite de probabilité de En vertu de (4.6), nous avons
(B.1)
où désigne l'espérance sous la sélection
aléatoire de jeux de poids conditionnellement aux jeux de poids. De même, en vertu de (3.11), nous avons
En vertu de (4.6) de nouveau, nous avons
(B.2)
Soit nous avons en vertu de (B.2), ce qui prouve (4.7). En
outre, de nouveau en vertu de (B.2), nous avons Donc, nous avons
(B.3)
De la même façon, nous pouvons également prouver
que
Bibliographie
Binder, D.A.
(1983). On the variances of asymptotically normal estimators from complex
surveys. Revue Internationale
de Statistique, 51, 279-292.
Breidt, F.J., et Chauvet, G. (2011). Improved variance estimation for balanced
samples drawn via the cube method. Journal
of Statistical Planning and Inference, 141, 411-425.
Campbell, C.
(1980). A different view of the finite population estimation. Proceedings of the Section on Survey
Research Methods, American Statistical Association, 319-324.
Deville, J.-C. (1999). Estimation de variance pour
des statistiques et des estimateurs complexes : linéarisation et
techniques des résidus. Techniques
d'enquête, 25, 2, 219-230.
Deville, J.-C., et Tillé, Y. (2005). Variance
approximation under balanced sampling. Journal of Statistical
Planning and Inference,
128, 411-425.
Dippo, C.S.,
Fay, R.E. et Morganstein, D.H. (1984). Computing variances from complex samples
with replicate weights. Proceedings of
the Section on Survey Research Methods, American Statistical Association,
Washington, DC, 489-494.
Fay, R.E.
(1984). Some properties of estimators of variance based on replication methods.
Proceedings of the Section on Survey
Research Methods, American Statistical Association, Washington, DC,
495-500.
Fay, R.E., et Dippo, C.S. (1989). Theory and application of replicate
weighting for variance calculations. Proceedings
of the Section on Survey Research Methods, American Statistical
Association, Washington, DC, 212-217.
Fuller, W.A.
(1998). Replication variance estimation for two phase samples. Statistica Sinica, 8, 1153-1164.
Fuller, W.A.
(2009a). Sampling Statistics.
Hoboken, New Jersey : John Wiley & Sons, Inc.
Fuller, W.A.
(2009b). Some design properties of a rejective sampling procedure. Biometrika, 96, 933-944.
Godambe, V.P., et Thompson, M.E. (2009). Estimating functions and survey
sampling. Dans Handbook of Statistics,
(Éds., D. Pfeffermann et C.R. Rao), Sample Surveys: Inference and
Analysis, Hollande du Nord, Vol. 29B, 83-101.
Gross, S.
(1980). Median estimation in sample surveys. Proceedings of the Section on Survey Research Methods, American
Statistical Association, Washington, DC, 181-184.
Isaki, C.T., et Fuller, W.A. (1982). Survey design under the regression
superpopulation model. Journal of the
American Statistical Association, 77, 89-96.
Jang, D., et
Eltinge, J.L. (2009). Utilisation des variances à l'intérieur des unités
primaires d'échantillonnage pour évaluer la stabilité d'un estimateur classique
de variance fondé sur le plan de sondage. Techniques
d'enquête, 35, 2, 255-266.
Kim, J.K., Navarro, A. et Fuller, W.A. (2006). Replication variance estimation for
two-phase stratified sampling. Journal of
the American Statistical Association, 101, 312-320.
Kott, P.S.
(2001). The delete-a-group jackknife. Journal
of Official Statistics, 17, 521-526.
Krewski, D., et
Rao, J.N.K. (1981). Inference from stratified samples: Properties of the
linearization, jackknife and balanced repeated replication methods. Annals of Statistics, 9, 1010-1019.
Lu, W.W.,
Brick, J.M. et Sitter, R.R. (2006). Algorithms for constructing combining
strata variance estimators. Journal of
the American Statistical Association, 101, 1680-1692.
Lu, W.W., et
Sitter, R.R. (2008). Disclosure risk and replication-based variance estimation.
Statistica Sinica, 18, 1669-1687.
McCarthy, P.J.,
et Snowden, C.B. (1985). The Bootstrap
and Finite Population Sampling. Vital and Health Statistics, Sér. 2, No.
95, Public Health Service Publication 85-1369, U.S. Government Printing Office,
Washington, DC.
Preston, J. (2009).
Bootstrap rééchelonné pour l'échantillonnage stratifié à plusieurs degrés. Techniques
d'enquête, 35, 2, 247-254.
Rao, J.N.K.
(1965). On two simple schemes of unequal probability sampling without replacement.
Journal of the Indian Statistical
Association, 3, 173-180.
Rao, J.N.K., et
Wu, C.F.J. (1988). Resampling inference with complex survey data. Journal of the American Statistical
Association, 83, 231-241.
Rust, K.F., et
Kalton, G. (1987). Strategies for collapsing strata for variance estimation. Journal of Official Statistics, 3,
69-81.
Rust, K.F., et
Rao, J.N.K. (1996). Variance estimation for complex surveys using replication
techniques. Statistical Methods in
Medical Research, 5, 283-310.
Sampford, M.R.
(1967). On sampling without replacement with unequal probabilities of
selection. Biometrika, 54, 499-513.
Shao, J.
(1996). Resampling methods in sample surveys (avec discussion). Statistics, 27, 203-254.
Shao, J.
(2003). Impact of the bootstrap on sample surveys. Statistical Science, 18, 191-198.
Shao, J., et Tu, D. (1995). The
Jackknife and Bootstrap.
New York : Springer.
Sitter, R.R.
(1992). A resampling procedure for complex survey data. Journal of the American Statistical Association, 87, 755-765.
Sitter, R.R.,
et Wu, C. (2001). A note on Woodruff confidence intervals for quantiles. Statistics and Probability Letters, 52,
353-358.
Skinner, C.J.
(1989). Domain means, regression and multivariate analysis. Dans Analysis of Complex Surveys, (Éds., C.J.
Skinner, D. Holt et T.M. Smith), New York : John Wiley & Sons,
Inc., 59-88.
Tillé, Y.
(2006). Sampling Algorithms. Springer
Science + Business Media, Inc.
Wolter, K.M.
(2007). Introduction to Variance
Estimation (2e Édition). New York : Springer-Verlag.
Wu, C. (2004).
Some algorithmic aspects of the empirical likelihood method in survey sampling.
Statistica Sinica, 14, 1057-1067.
Wu, C. (2005). Algorithmes et codes R pour la
méthode de la pseudo-vraisemblance empirique dans les sondages. Techniques
d'enquête, 31, 2, 261-266.
Précédent