Publications

Techniques d’enquête

Recherche par

7 Certaines conclusions

Jae Kwang Kim et Changbao Wu

Les méthodes de rééchantillonnage offrent une alternative asymptotiquement équivalente aux méthodes de linéarisation, mais sont plus commodes et plus souples sur le plan opérationnel. Nous nous sommes concentrés sur des paramètres de population qui sont des fonctions lisses des moyennes ou des totaux. Nos résultats théoriques et nos études par simulation limitées montrent que les stratégies proposées pour construire des poids de rééchantillonnage parcimonieux et efficaces donnent de bons résultats pour l'estimation de la variance et les intervalles de confiance. Néanmoins, un certain nombre de problèmes doivent être étudiés plus en profondeur. Premièrement, pour des paramètres complexes tels que les coefficients de corrélation de population, les estimateurs de la variance par rééchantillonnage parcimonieux ne sont pas très stables. Deuxièmement, d'autres preuves de l'efficacité des stratégies proposées pour les grandes enquêtes complexes conjuguées à l'utilisation de poids bootstrap ou jackknife généraux sont nécessaires. Troisièmement, il n'est pas certain que les poids de rééchantillonnage parcimonieux seront efficaces pour des paramètres qui sont des fonctions non lisses des moyennes ou des totaux, tels que les quantiles de population, pour lesquels on sait que les intervalles de confiance de la théorie normale sont inefficaces (Sitter et Wu 2001).

Une autre question importante est celle de l'application éventuelle des méthodes proposées à des paramètres et à des estimateurs définis au moyen d'équations d'estimation. Soit $θ$ défini comme étant la solution de

$U_{N} (θ) = \sum_{i = 1}^{N} u_{i} (y_{i}, x_{i}; θ) = 0 .$ (7.1)

Soit $\hat{θ}$ obtenu en résolvant une version fondée sur l'échantillon de (7.1) donnée par

$U_{n} (θ) = \sum_{i \in S} w_{i} u_{i} (y_{i}, x_{i}; θ) = 0 .$ (7.2)

Les analyses par la régression ou par la régression logistique en utilisant des données d'enquête complexes peuvent être considérées comme des cas particuliers de forme générale donnés par (7.1) et (7.2). La variance de type sandwich habituelle de $\hat{θ}$ est donnée par

$V (\hat{θ}) ≐ {\frac{\partial U_{N} (θ)}{\partial θ}}^{- 1} V {U_{n} (θ)} {\frac{\partial U_{N} (θ)}{\partial θ}}^{- 1} (7.3)$

Nous pouvons maintenant obtenir un estimateur de la variance $v (\hat{θ})$ si nous remplaçons $\partial U_{N} (θ) / \partial θ$ par $\partial U_{n} (θ) / \partial θ$ à $θ = \hat{θ}$ et estimons $V {U_{n} (θ)}$ en appliquant la méthode d'estimation de la variance par rééchantillonnage à ${\hat{U}}_{n} = \sum_{i \in S} w_{i} u_{i}$ avec $u_{i} = u_{i} (y_{i}, x_{i}; \hat{θ}) .$ Pour des discussions détaillées des équations d'estimation et de l'échantillonnage, consulter entre autres, Binder (1983), Skinner (1989), et Godambe et Thompson (2009).

Arriver à une estimation efficace de la variance en utilisant un nombre limité de jeux de poids de rééchantillonnage est un problème de recherche important du point de vue tant théorique que pratique. Les poids de rééchantillonnage entièrement efficaces conçus en suivant la procédure décrite à la section 2 peuvent être traités comme des jeux de poids initiaux si la taille de l'échantillon $n$ est grande. En principe, les stratégies que nous proposons à la section 3 pour produire des poids de rééchantillonnage parcimonieux et efficaces peuvent être combinées avec d'autres jeux de poids de rééchantillonnage initiaux, y compris les poids bootstrap (Shao 1996) ou les poids jackknife avec suppression d'un groupe (Kott 2001). On devrait également inclure autant de variables pertinentes que possible dans l'étape de calage, afin que les poids de rééchantillonnage calés finaux ne soient pas seulement parcimonieux, mais également efficaces pour l'obtention d'estimateurs de la variance pour une grande classe d'estimateurs. Des extensions de la méthode proposée afin de traiter les poids calés ou les corrections de la non-réponse sont en cours d'étude.

Remerciements

Nous remercions deux examinateurs anonymes et le rédacteur associé de leurs commentaires très utiles. Les présents travaux ont pour origine les discussions initiales entre le premier auteur J.K. Kim et le professeur Randy Sitter de la Simon Fraser University qui a disparu en mer tragiquement durant une expédition en kayak en 2007. Les auteurs souhaitent dédier le présent article à la mémoire du professeur Sitter qui était également le superviseur de la thèse de doctorat du deuxième auteur C. Wu. Les travaux de recherche de J.K. Kim ont été financés en partie par une entente de coopération entre le Natural Resources Conservation Service du US Department of Agriculture et la Iowa State University. Les travaux de recherche de C. Wu ont été financés par des subventions du Conseil de recherches en sciences naturelles et en génie du Canada et du réseau des mathématiques et des technologies de l'information et des systèmes complexes (MITACS).

Annexe

A Preuve du théorème 2

En vertu de l'hypothèse (4.2), nous avons

$\max_{1 \leq k \leq L} c_{k} {({\hat{t}}_{y}^{(k)} - {\hat{t}}_{y})}^{2} = O_{p} (L^{- 1} n^{- 1} N^{2}),$

qui, combiné à (4.3), implique que

$\max_{1 \leq k \leq L} ({\hat{μ}}_{y}^{(k)} - {\hat{μ}}_{y}) = o_{p} (1),$ (A.1)

où ${\hat{μ}}_{y}^{(k)} = N^{- 1} {\hat{t}}_{y}^{(k)}$ et ${\hat{μ}}_{y} = N^{- 1} {\hat{t}}_{y} .$ Soit $g (μ_{y}) = f (N μ_{y}) .$ Nous pouvons écrire

${\hat{θ}}^{(k)} - \hat{θ} = g ({\hat{μ}}_{y}^{(k)}) - g ({\hat{μ}}_{y}) = \dot{g} ({\hat{μ}}_{y}) ({\hat{μ}}_{y}^{(k)} - {\hat{μ}}_{y}) + Q_{n k} ({\hat{μ}}_{y}^{(k)} - {\hat{μ}}_{y}),$

où $\dot{g} (μ) = \partial g (μ) / \partial μ, Q_{n k} = \dot{g} (μ_{k}^{*}) - \dot{g} ({\hat{μ}}_{y})$ et $μ_{k}^{*}$ est un point intérieur sur le segment de droite compris entre ${\hat{μ}}^{(k)}$ et $\hat{μ} .$ En vertu de (A.1), nous avons

$\max_{1 \leq k \leq L} (μ_{k}^{*} - {\hat{μ}}_{y}) = o_{p} (1) .$ (A.2)

Définissons

$D_{δ} = {μ | \max_{k} ‖ μ_{k}^{*} - μ ‖ < δ et \max_{k} ‖ \dot{g} (μ_{k}^{*}) - \dot{g} (μ) ‖ > ϵ} .$

Par construction, nous avons, pour tout $ϵ > 0$ et $δ > 0,$

$P {\max_{k} ‖ \dot{g} (μ_{k}^{*}) - \dot{g} ({\hat{μ}}_{y}) ‖ > ϵ} \leq P ({\hat{μ}}_{y} \in D_{δ}) + P (\max_{k} ‖ μ_{k}^{*} - {\hat{μ}}_{y} ‖ \geq δ) .$

En vertu de la continuité de $\dot{g} (μ)$ à $μ = μ_{y}$ et du fait que ${\hat{μ}}_{y} = μ_{y} + o_{p} (1),$ nous avons que, pour tout $ϵ > 0,$ il existe un $δ = δ (ϵ) > 0$ tel que $P ({\hat{μ}}_{y} \in D_{δ}) = o (1) .$ Cela, conjugué à (A.2), implique que

$\max_{k} ‖ \dot{g} (μ_{k}^{*}) - \dot{g} ({\hat{μ}}_{y}) ‖ = o_{p} (1) .$ (A.3)

Maintenant, nous avons

$\sum_{k = 1}^{L} c_{k} {({\hat{θ}}^{(k)} - \hat{θ})}^{2} = A_{n} + B_{n} + 2 C_{n} ,$ (A.4)

où

$\begin{matrix} A_{n} = \sum_{k = 1}^{L} c_{k} {\dot{g} ({\hat{μ}}_{y}) ({\hat{μ}}_{y}^{(k)} - {\hat{μ}}_{y})}^{2}, \\ B_{n} = \sum_{k = 1}^{L} c_{k} {Q_{n k} ({\hat{μ}}_{y}^{(k)} - {\hat{μ}}_{y})}^{2} et \\ C_{n} = \sum_{k = 1}^{L} c_{k} \dot{g} ({\hat{μ}}_{y}) {({\hat{μ}}_{y}^{(k)} - {\hat{μ}}_{y})}^{2} Q_{n k} . \end{matrix}$

Notons que (4.4) implique que

$\sum_{k = 1}^{L} c_{k} {({\hat{μ}}_{y}^{(k)} - {\hat{μ}}_{y})}^{2} / V ({\hat{μ}}_{y}) = 1 + o_{p} (1) .$ (A.5)

En vertu des arguments de linéarisation classique, nous avons $A_{n} / V (\hat{θ}) \to 1$ en probabilité. En outre, en vertu de (A.3) et (A.5), nous avons $B_{n} / V (\hat{θ}) = o_{p} (1)$ et $C_{n} / V (\hat{θ}) = o_{p} (1) .$ Cela établit (4.5).

B Preuve du théorème 3

En combinant (3.10) et (3.11) et en ignorant les termes d'ordre plus faible, nous avons

$v_{0} ({\hat{t}}_{y}) - v_{C} ({\hat{t}}_{y}) ≐ {\hat{β}}^{'} v_{0} ({\hat{t}}_{z}) \hat{β} - \hat{β^{'}} v_{1} ({\hat{t}}_{z}) \hat{β} ≐ β^{'} v_{0} ({\hat{t}}_{z}) β - β^{'} v_{1} ({\hat{t}}_{z}) β .$

où $β$ est la limite de probabilité de $\hat{β} .$ En vertu de (4.6), nous avons

$E^{*} {v_{0} ({\hat{t}}_{z})} = v_{1} ({\hat{t}}_{z}),$ (B.1)

où $E^{*} (\cdot)$ désigne l'espérance sous la sélection aléatoire de $L_{0}$ jeux de poids conditionnellement aux $L$ jeux de poids. De même, en vertu de (3.11), nous avons

$v_{1} ({\hat{t}}_{y}) - v_{C} ({\hat{t}}_{y}) ≐ v_{1} ({\hat{t}}_{e}) - v_{0} ({\hat{t}}_{e}) .$

En vertu de (4.6) de nouveau, nous avons

$E^{*} {v_{0} ({\hat{t}}_{e})} = v_{1} ({\hat{t}}_{e}) .$ (B.2)

Soit ${\hat{d}}_{1} = v_{C} ({\hat{t}}_{y}) - v_{1} ({\hat{t}}_{y}),$ nous avons $E ({\hat{d}}_{1}) = 0$ en vertu de (B.2), ce qui prouve (4.7). En outre, de nouveau en vertu de (B.2), nous avons $Cov {{\hat{d}}_{1}, v_{1} ({\hat{t}}_{y})} = 0.$ Donc, nous avons

$V {v_{C} ({\hat{t}}_{y})} = V {v_{1} ({\hat{t}}_{y})} + V ({\hat{d}}_{1}) \geq V {v_{1} ({\hat{t}}_{y})} .$ (B.3)

De la même façon, nous pouvons également prouver que $V {v_{0} ({\hat{t}}_{y})} \geq V {v_{C} ({\hat{t}}_{y})} .$

Bibliographie

Binder, D.A. (1983). On the variances of asymptotically normal estimators from complex surveys. Revue Internationale de Statistique, 51, 279-292.

Breidt, F.J., et Chauvet, G. (2011). Improved variance estimation for balanced samples drawn via the cube method. Journal of Statistical Planning and Inference, 141, 411-425.

Campbell, C. (1980). A different view of the finite population estimation. Proceedings of the Section on Survey Research Methods, American Statistical Association, 319-324.

Deville, J.-C. (1999). Estimation de variance pour des statistiques et des estimateurs complexes : linéarisation et techniques des résidus. Techniques d'enquête, 25, 2, 219-230.

Deville, J.-C., et Tillé, Y. (2005). Variance approximation under balanced sampling. Journal of Statistical Planning and Inference, 128, 411-425.

Dippo, C.S., Fay, R.E. et Morganstein, D.H. (1984). Computing variances from complex samples with replicate weights. Proceedings of the Section on Survey Research Methods, American Statistical Association, Washington, DC, 489-494.

Fay, R.E. (1984). Some properties of estimators of variance based on replication methods. Proceedings of the Section on Survey Research Methods, American Statistical Association, Washington, DC, 495-500.

Fay, R.E., et Dippo, C.S. (1989). Theory and application of replicate weighting for variance calculations. Proceedings of the Section on Survey Research Methods, American Statistical Association, Washington, DC, 212-217.

Fuller, W.A. (1998). Replication variance estimation for two phase samples. Statistica Sinica, 8, 1153-1164.

Fuller, W.A. (2009a). Sampling Statistics. Hoboken, New Jersey : John Wiley & Sons, Inc.

Fuller, W.A. (2009b). Some design properties of a rejective sampling procedure. Biometrika, 96, 933-944.

Godambe, V.P., et Thompson, M.E. (2009). Estimating functions and survey sampling. Dans Handbook of Statistics, (Éds., D. Pfeffermann et C.R. Rao), Sample Surveys: Inference and Analysis, Hollande du Nord, Vol. 29B, 83-101.

Gross, S. (1980). Median estimation in sample surveys. Proceedings of the Section on Survey Research Methods, American Statistical Association, Washington, DC, 181-184.

Isaki, C.T., et Fuller, W.A. (1982). Survey design under the regression superpopulation model. Journal of the American Statistical Association, 77, 89-96.

Jang, D., et Eltinge, J.L. (2009). Utilisation des variances à l'intérieur des unités primaires d'échantillonnage pour évaluer la stabilité d'un estimateur classique de variance fondé sur le plan de sondage. Techniques d'enquête, 35, 2, 255-266.

Kim, J.K., Navarro, A. et Fuller, W.A. (2006). Replication variance estimation for two-phase stratified sampling. Journal of the American Statistical Association, 101, 312-320.

Kott, P.S. (2001). The delete-a-group jackknife. Journal of Official Statistics, 17, 521-526.

Krewski, D., et Rao, J.N.K. (1981). Inference from stratified samples: Properties of the linearization, jackknife and balanced repeated replication methods. Annals of Statistics, 9, 1010-1019.

Lu, W.W., Brick, J.M. et Sitter, R.R. (2006). Algorithms for constructing combining strata variance estimators. Journal of the American Statistical Association, 101, 1680-1692.

Lu, W.W., et Sitter, R.R. (2008). Disclosure risk and replication-based variance estimation. Statistica Sinica, 18, 1669-1687.

McCarthy, P.J., et Snowden, C.B. (1985). The Bootstrap and Finite Population Sampling. Vital and Health Statistics, Sér. 2, No. 95, Public Health Service Publication 85-1369, U.S. Government Printing Office, Washington, DC.

Preston, J. (2009). Bootstrap rééchelonné pour l'échantillonnage stratifié à plusieurs degrés. Techniques d'enquête, 35, 2, 247-254.

Rao, J.N.K. (1965). On two simple schemes of unequal probability sampling without replacement. Journal of the Indian Statistical Association, 3, 173-180.

Rao, J.N.K., et Wu, C.F.J. (1988). Resampling inference with complex survey data. Journal of the American Statistical Association, 83, 231-241.

Rust, K.F., et Kalton, G. (1987). Strategies for collapsing strata for variance estimation. Journal of Official Statistics, 3, 69-81.

Rust, K.F., et Rao, J.N.K. (1996). Variance estimation for complex surveys using replication techniques. Statistical Methods in Medical Research, 5, 283-310.

Sampford, M.R. (1967). On sampling without replacement with unequal probabilities of selection. Biometrika, 54, 499-513.

Shao, J. (1996). Resampling methods in sample surveys (avec discussion). Statistics, 27, 203-254.

Shao, J. (2003). Impact of the bootstrap on sample surveys. Statistical Science, 18, 191-198.

Shao, J., et Tu, D. (1995). The Jackknife and Bootstrap. New York : Springer.

Sitter, R.R. (1992). A resampling procedure for complex survey data. Journal of the American Statistical Association, 87, 755-765.

Sitter, R.R., et Wu, C. (2001). A note on Woodruff confidence intervals for quantiles. Statistics and Probability Letters, 52, 353-358.

Skinner, C.J. (1989). Domain means, regression and multivariate analysis. Dans Analysis of Complex Surveys, (Éds., C.J. Skinner, D. Holt et T.M. Smith), New York : John Wiley & Sons, Inc., 59-88.

Tillé, Y. (2006). Sampling Algorithms. Springer Science + Business Media, Inc.

Wolter, K.M. (2007). Introduction to Variance Estimation (2^e Édition). New York : Springer-Verlag.

Wu, C. (2004). Some algorithmic aspects of the empirical likelihood method in survey sampling. Statistica Sinica, 14, 1057-1067.

Wu, C. (2005). Algorithmes et codes R pour la méthode de la pseudo-vraisemblance empirique dans les sondages. Techniques d'enquête, 31, 2, 261-266.

Date de modification :: 2017-09-20

Sélection de la langue

Recherche et menus

Recherche