Estimateurs de la variance robustes pour estimateurs par la régression généralisée dans des échantillons en grappes
Section 4. Conclusion
Il a été démontré que les ajustements d’effets
de levier des estimateurs standards de la variance réduisent le biais et
améliorent la couverture de l’intervalle de confiance fondée sur les
estimateurs par régression généralisée dans les échantillons à un degré. Le
présent article étend ces résultats à des échantillons à deux degrés en
présentant de nouveaux ajustements fondés sur des matrices chapeaux. Notre
théorie justifie les ajustements et illustre que certains estimateurs proposés
sont liés au jackknife avec suppression de grappe, qui est une procédure
commune dans l’estimation par sondage.
Pour mettre à l’épreuve la théorie, nous
avons mené une série d’études par simulations sur trois populations conçues
pour évaluer le rendement dans des situations diverses. Pour ce, nous avons
utilisé une grande fraction de sondage d’unités au premier degré dans une
population d’âge scolaire. Dans une deuxième population, constituée à partir
des données de l’Enquête sur les collectivités américaines (ACS), nous avons
mis à l’épreuve les effets des petites tailles d’échantillon. Dans une
troisième population simulée, nous avons examiné les performances d’un grand
échantillon. Nous avons employé à la fois un échantillonnage aléatoire simple
et un échantillonnage avec probabilités proportionnelles à la taille des
grappes.
Les relations des estimateurs de la
variance étaient semblables dans tous les plans d’échantillonnage. L’estimateur
de la variance avec remise,
qui est le choix par défaut dans
les progiciels pour données d’enquête, l’estimateur par linéarisation
jackknife,
et l’estimateur de la variance
fondé sur le plan,
qui suppose un échantillonnage
de Poisson à chaque degré pour faciliter les calculs, présentent souvent un
biais négatif, ce qui entraîne des intervalles de confiance au taux de
couverture inférieur au taux souhaité. Certains estimateurs liés au
jackknife
et
qui comprennent explicitement ou implicitement des ajustements de
matrice chapeau, ont tendance à produire de grandes valeurs aberrantes quand l’échantillon
au premier degré est petit. Cela est particulièrement vrai quand le premier
degré est sélectionné par EAS,
mais moins dans l’échantillonnage avec PPT
quand une mesure de taille efficace est utilisée.
Les estimateurs de la variance proposés
ici, en particulier
offrent des solutions de
rechange à l’estimation de la variance des estimateurs GREG dans des
échantillons complexes. Au détriment d’une légère inflation de la variabilité
de l’estimateur de la variance, les estimateurs sandwich à la matrice chapeau
ajustée, notés ici par
et
donnent une couverture de l’intervalle
de confiance plus proche de la valeur nominale dans les échantillons petits à
moyens. Selon le plan d’échantillonnage et les caractéristiques de la
population, les estimateurs à la matrice chapeau ajustée peuvent produire des
estimations de la variance moins biaisées et de meilleures inférences
comparativement aux méthodes standards.
Remerciements
Les auteurs remercient le rédacteur
associé et deux examinateurs, dont les commentaires ont considérablement
amélioré l’article.
Annexe
Résultats théoriques
A.1 Hypothèses
Voici les hypothèses utilisées pour l’obtention
de résultats asymptotiques. Le nombre de populations et de grappes d’échantillons
tend vers l’infini. Cependant, le nombre de grappes de population augmente plus
rapidement que le nombre de grappes d’échantillon. Certaines quantités de
population sont supposées bornées.
A.1.1
quand
et
A.1.2
Tous les
et
sont bornés.
A.1.3
pour tous les
A.1.4
Tous les éléments de
et
sont bornés.
A.1.5
Le plan d’échantillonnage est tel que
où
est
une matrice définie positive
c’est-à-dire que
Étant donné que
élément par élément et
peut être écrit comme la somme
de termes
et que
est borné quand
Par définition,
Le second terme dans
est
Par conséquent,
converge vers un vecteur de
valeurs 1. Si on utilise
ainsi que les hypothèses A.1.3 et A.1.4,
est
élément par élément.
A.2 Variation du modèle de l’estimateur GREG
Soit
le vecteur de tous les éléments
d’échantillon dans la grappe
et soit
le vecteur de tous les éléments
de la grappe
La variance du GREG, en ce qui
concerne le modèle de travail (2.1), est :
Étant donné que
et les éléments des différentes
grappes ne sont pas corrélés, nous obtenons :
Puisque
et
et
sont bornés, nous avons
Étant donné que
est borné,
et
est la somme des termes
Puisque les valeurs
sont bornées,
Ainsi,
est le terme dominant de la
variance de prédiction.
A.3 Démonstration de
Dans la présente section, pour simplifier
la notation, nous omettons l’indice
dans
et
Le résidu peut s’écrire en
termes de matrice chapeau comme suit.
où est la matrice d’identité La variance du modèle de est alors
Comme on l’a indiqué plus haut, Alors,
Pour justifier notons que le second terme de
(A.1) peut s’écrire comme suit :
La somme sur l’échantillon en grappes
complet est
Dans le cas particulier de et pour une constante (c’est-à-dire que l’échantillon
est autopondéré), nous avons
ainsi que et À partir de ces simplifications,
nous obtenons Si on substitue ce résultat dans
(A.1) et qu’on simplifie, on a
Il s’agit de la base de l’ajustement
de pour obtenir
A.4 Démonstration de pour les échantillons en
grappes
Dans la présente section, nous omettons l’indice
dans et pour simplifier la notation. L’indice
désigne la suppression de la grappe du vecteur ou de la
matrice de l’échantillon complet. Par exemple, est l’estimation de fondée sur toutes les grappes d’échantillon
sauf la grappe soit
où Si nous utilisons le
lemme 9.5.1 de Valliant et coll. (2000), nous obtenons
Étant donné que et nous avons
Par conséquent,
A.5 Estimateur de la variance par la méthode du jackknife de GREG en
grappes en termes de leviers
Nous simplifions maintenant l’estimateur
de la variance par la méthode du jackknife avec suppression de grappe de GREG
en grappes. Comme dans les sections A.3 et A.4, nous omettons l’indice dans plusieurs termes pour simplifier la
notation. Le total estimé après la suppression de la grappe est défini comme étant
L’ajout et la soustraction de et une importante simplification
donnent
La différence entre les estimations
avec suppression d’une unité et la moyenne de ces estimations donne
Soit qui donne la formule de dans l’équation (2.12). Puis, étant donné que et
Ainsi, et dans (2.6) et (2.12) équivaut asymptotiquement
à dans (2.13).
Enfin,
pour justifier dans (2.14), nous écrivons sous la forme du calcul
où Notons que la variance du modèle
de est
Puisque et que la somme dans contient des termes la variance de est Ensuite, on met à l’échelle pour que la valeur soit
appropriée pour une moyenne, le premier terme entre parenthèses dans (A.3) est Puisque le second terme entre
parenthèses a une espérance de modèle de 0 et une variance il converge en probabilité
à 0, et équivaut asymptotiquement à
A.6 Équivalence asymptotique des estimateurs de la
variance
Dans la présente annexe, nous esquissons
des arguments pour expliquer pourquoi plusieurs estimateurs de la variance sont
asymptotiquement équivalents. En utilisant des arguments fondés sur le plan de
sondage, Yung et Rao (1996, Annexe) ont montré que l’estimateur par
linéarisation jackknife, pour l’estimation par la
régression généralisée (GREG), équivaut asymptotiquement à l’estimateur
convergent par rapport au plan, dans des plans à plusieurs
degrés stratifiés avec un grand nombre de strates et un nombre borné de grappes
d’échantillon sélectionnées dans chaque strate. Si on utilise les conditions de
régularité de Rao et Shao (1985), on peut étendre le résultat à des plans dans
lesquels soit (i) le nombre de strates est grand et le nombre de grappes par
strate est limité ou (ii) le nombre de strates est limité et le nombre de
grappes d’échantillon par strate est grand, comme cela est le cas dans le
présent article.
L’estimateur
par linéarisation jackknife de la section 2 peut être étendu comme suit
Le premier terme dans (A.4) est égal à Parce que, dans certaines hypothèses
raisonnables, et sont bornés, et selon les hypothèses A.1.2 et A.1.3,
le premier terme dans (A.4) est Le second terme est aussi mais l’espérance du modèle de est nulle tant que (2.1) se vérifie. Étant
donné que est une moyenne, sa variance de modèle tend
vers 0 quand Ainsi, le second terme dans (A.4) converge en
probabilité à 0 et
À
la section A.5, il a été démontré que et sont asymptotiquement équivalents. Dans
A.1.1-A.1.4, Par conséquent, et sont approximativement identiques à et Ainsi, par extension de Yung et Rao
(1996), les deux étant convergents par rapport au plan de sondage. De plus, équivaut asymptotiquement à et Par conséquent, les autres
estimateurs de la variance examinés ici ont tous des justifications fondées sur
le modèle et sur le plan de sondage.
Bibliographie
Kott, P.S. (1988). Model-based finite population
correction for the Horvitz-Thompson estimator. Biometrika, 75(4),
797-799.
Krewski, D., et Rao, J.N.K. (1981). Inference from
stratified samples: Properties of the linearization, jackknife and balanced
repeated replication methods. The
Annals of Statistics,
9(5), 1010-1019.
Li, J., et
Valliant, R. (2009). Matrice chapeau et effets de levier pondérés par les poids
de sondage. Techniques d’enquête, 35, 1, 17-27. Article accessible à l’adresse https://www150.statcan.gc.ca/n1/fr/pub/12-001-x/2009001/article/10881-fra.pdf.
Long, J.S.,
et Ervin, L.H. (2000). Using heteroscedasticity consistent standard errors
in the linear regression model. The American Statistician, 54(3),
217-224.
MacKinnon, J.G., et White, H. (1985). Some
heteroskedasticity consistent covariance matrix estimators with improved finite
sample properties. Journal of Econometrics, 29(3), 305-325.
Rao, J.N.K., et Shao, J. (1985). Inference from
stratified samples: Second-order analysis of three methods for nonlinear
statistics. Journal of the American Statistical Association, 80(391),
620-630.
Royall, R.M., et Cumberland, W.G. (1978). Variance
estimation in finite population sampling. Journal of the American
Statistical Association, 73(362), 351-358.
Särndal, C.-E., Swensson, B. et Wretman, J. (1989). The
weighted residual technique for estimating the variance of the general
regression estimator of the finite population total. Biometrika, 76(3),
527-537.
Särndal, C.-E., Swensson, B. et Wretman, J. (1992). Model Assisted Survey Sampling. Springer Series in Statistics. New York:
Springer-Verlag.
Valliant, R. (2002). Estimation de la variance de l’estimateur de régression généralisée. Techniques
d’enquête, 28, 1, 109-122. Article accessible à l’adresse https://www150.statcan.gc.ca/n1/fr/pub/12-001-x/2002001/article/6424-fra.pdf.
Valliant, R.,
Dorfman, A.H. et Royall, R.M. (2000). Finite Population Sampling and
Inference: A Prediction Approach. Wiley Series in Probability and
Statistics: Survey Methodology Section. New York: John Wiley & Sons, Inc.
Yung, W., et
Rao, J.N.K. (1996). Linéarisation des estimateurs de variance jackknife dans un
échantillonnage stratifié à degrés multiples. Techniques d’enquête, 22,
1, 23-31. Article accessible à l’adresse https://www150.statcan.gc.ca/n1/fr/pub/12-001-x/1996001/article/14388-fra.pdf.