Une mesure de l’effet de plan pour la pondération par calage dans les échantillons à un degré
5. Discussion, limites et conclusionsUne mesure de l’effet de plan pour la pondération par calage dans les échantillons à un degré
5. Discussion, limites et conclusions
Nous proposons un nouvel effet de plan
qui permet d’évaluer l’effet des ajustements de la pondération par calage sur
un total estimé dans le cas d’un échantillonnage à un degré. Deux mesures
existantes des effets de plan sont l’« effet de plan dû à la
pondération » de Kish (1965) et
celle établie par Spencer (2000). Ni
l’une ni l’autre de ces mesures ne permet de tenir compte des gains
d’efficacité dus au calage. Le
de Kish
est une mesure raisonnable si l’équipondération est optimale ou quasi optimale,
mais ne révèle pas les gains d’efficacité qui pourraient être attribuables à
l’échantillonnage avec probabilités variables. Le
de Spencer
indique si l’estimateur HT (ou
est plus efficace sous échantillonnage avec
probabilités variables que sous
Toutefois, le
de Spencer
ne rend compte d’aucun gain d’efficacité dû à l’utilisation du calage.
L’effet de plan que nous proposons
mesure l’effet de l’échantillonnage avec probabilités variables ainsi que celui
de l’utilisation d’un estimateur par calage, tel que l’estimateur GREG, qui
tire parti de l’information auxiliaire. Comme nous le démontrons empiriquement,
les effets de plan proposés ne pénalisent pas l’utilisation de poids inégaux
quand la relation entre la variable étudiée et la covariable de calage est
forte. Nous démontrons aussi empiriquement que les composantes de corrélation
dans la mesure de Spencer et dans notre
mesure proposée peuvent être importantes dans certaines situations. Il n’est
pas très difficile de calculer ces composantes, et celles-ci devraient être
incorporées dans la mesure du possible pour éviter de surestimer les effets de
plan. Cependant, les fortes corrélations entre les variables étudiées et les
variables auxiliaires que nous avons observées dans nos données sur une
pseudopopulation d’établissements pourraient être irréalisables dans le cas de
certaines enquêtes pour lesquelles l’information auxiliaire fait défaut. Dans
les cas où l’information auxiliaire est
inefficace ou n’est pas utilisée, la mesure proposée s’approche du
de Kish.
La mesure présentée ici est applicable à l’échantillonnage à un degré, mais
peut être étendue à des plans d’échantillonnage plus complexes, dont
l’échantillonnage en grappes.
Notre mesure s’appuie sur le modèle qui
sous-tend l’estimateur par la régression généralisée pour étendre la mesure de Spencer. La variable étudiée, les covariables
et les poids sont nécessaires pour produire l’estimation de l’effet de plan.
Puisque la variance (3.2) est approximativement correcte dans le cas de grands
échantillons pour tous les estimateurs par calage, notre effet de plan devrait
refléter les effets de nombreuses formes de méthodes d’ajustement de la
pondération fréquemment utilisées, y compris la poststratification, le ratissage et la régression GREG. Bien que l’on
puisse calculer des effets de plan tenant compte de ces ajustements directement
d’après les variances estimées, il est important que les praticiens sachent que
les
existants de Kish
et de Spencer ne reflètent aucun des
gains découlant de ces ajustements. Le
proposé dans le présent article sert donc à
corriger ce défaut.
Comme
considération pratique, le
de (3.4) est disponible dans la fonction « deffH » du package « PracTools » de R; voir Valliant et coll. (2015) pour
la documentation et les exemples.
Remerciements
Nous remercions les examinateurs de
leurs révisions approfondies qui ont permis d’améliorer la présentation. Les
opinions exprimées sont celles des auteurs et ne reflètent pas celles de l’Internal Revenue Service.
Annexe
Effet de plan proposé sous échantillonnage
à un degré
La présente annexe donne une esquisse
du calcul du
proposé. La plupart de la notation a été
définie aux sections précédentes de l’article. La probabilité moyenne dans la
population pour un tirage est
Supposons que le plan d’échantillonnage
satisfait
Considérons le modèle
Si la population finie complète était
disponible, la droite de régression par les moindres carrés pour la population
serait
où
et
sont les valeurs obtenues en ajustant une
droite de régression par les moindres carrés ordinaire à la population finie
complète. C’est-à-dire
où
est la matrice de dimensions
des variables auxiliaires de la population,
est la moyenne de la population, et
est le vecteur des moyennes de la population des
Les
sont définis comme étant les résidus dans la
population finie,
et ne sont pas les erreurs d’un modèle de
superpopulation. Désignons la variance dans la population des
des
des
et des poids comme étant
par exemple,
et les corrélations en population finie entre
les variables désignées par les indices inférieurs comme étant
et
La variance sous le plan théorique de
l’estimateur GREG dans le cas de l’échantillonnage avec remise est
où
L’utilisation du modèle (A.1) produit un effet
de plan comprenant plusieurs termes complexes, dont beaucoup contiennent des
corrélations qui ne peuvent pas être abandonnées comme dans l’approximation de Spencer. L’effet de plan peut être
simplifié en utilisant une formulation de rechange :
où
Premièrement, nous réécrivons le total de
population des
sous la forme
où
D’où,
Deuxièmement, en utilisant
ou
nous réécrivons la composante
sous la forme
Soustraire
de (A.3) et diviser par
donne
En suivant l’approche de Spencer en utilisant les substitutions des
covariances, le premier et le cinquième termes
dans (A.4) peuvent être réécrits comme
et
En introduisant ces expressions dans la
variance (A.4), on obtient
La variance de l’estimateur
sous échantillonnage aléatoire simple avec
remise, où
se réduit à
En prenant le ratio de (A.5) à la variance de l’estimateur
on obtient l’effet de plan suivant :
Comme
l’expression (A.6) devient
Nous estimons la mesure (A.7) au
moyen de
où les estimations des paramètres du modèle sont définies aux
sections 2.3 et 3.
Bibliographie
Brick, M., et Montaquila, J. (2009). Nonresponse. Dans Handbook of Statistics, Sample
Surveys: Design, Methods and Application, (Éds., D. Pfeffermann et
C.R. Rao), 29A, Amsterdam : Elsevier BV.
Chambers, J.M.,
Cleveland, W.S., Kleiner, B. et Tukey, P.A. (1983). Graphical Methods for Data Analysis. Pacific Grove CA :
Wadsworth.
Deville, J.-C.,
et Särndal, C.-E. (1992). Calibration estimators in survey sampling. Journal of the American Statistical
Association, 87, 376-382.
Deville, J.-C., Särndal, C.-E. et Sautory, O. (1993). Generalized raking procedures in survey
sampling. Journal of the American
Statistical Association, 88, 1013-1020.
Hansen, M.H., et Hurwitz, W.N. (1943). On the theory of sampling from a finite
population. Annals of Mathematical Statistics, 14, 333-362.
Horvitz, D., et Thompson, D. (1952). A generalisation of sampling without
replacement from a finite universe. Journal of the American Statistical
Association, 47, 663-685.
Kalton, G., et Flores-Cervantes, A. (2003). Weighting methods. Journal of
Official Statistics, 19 (2), 81-97.
Kish, L. (1965). Survey Sampling. New York : John
Wiley & Sons, Inc.
Kish, L. (1990).
Weighting: Why, when, and how? Proceedings
of the Joint Statistical Meetings, Section on Survey Research Methods, American
Statistical Association, 121-129.
Kish, L. (1992).
Weighting for unequal Pi. Journal of Official Statistics, 8, 183-200.
Kott, P. (2009).
Calibration weighting: Combining probability samples and linear prediction
models. Dans Handbook of Statistics, Sample Surveys: Design, Methods and
Application, (Éds., D. Pfeffermann et C.R. Rao), 29B, Amsterdam :
Elsevier BV.
Lumley, T.
(2012). Survey: Analysis of complex survey samples. R package version
3.28-2.
Park, I., et Lee, H. (2004). Effets de plan pour les
estimateurs pondérés de la moyenne et du total sous échantillonnage complexe. Techniques d’enquête, 30, 2, 205-216.
Rao, J.N.K., et Scott, A.J. (1984). On chi-squared tests for multiway contingency
tables with cell proportions estimated from survey data. Annals of Statistics, 12, 46-60.
Särndal, C.-E.,
et Lundström, S. (2005). Estimation in
Surveys with Nonresponse. New York : John Wiley & Sons, Inc.
Särndal, C.-E.,
Swensson, B. et Wretman, J. (1992). Model Assisted Survey Sampling. New
York : Springer: Berlin.
Spencer, B.D. (2000). Un effet de plan de sondage
approximatif pour une pondération inégale en cas de corrélation possible entre
les mesures et les probabilités de sélection. Techniques d’enquête, 26,
2, 153-155.
Statistics of Income (2011). 2007 Charities &
Tax-Exempt Microdata Files. Disponible au :
http://www.irs.gov/uac/SOI-Tax-Stats-2007-Charities-&-Tax-Exempt-Microdata-Files.
Valliant, R., Dever, J.A. et Kreuter, F. (2013). Practical
Tools for Designing and Weighting Survey Samples. New York : Springer.
Valliant, R.,
Dever, J.A. et Kreuter, F. (2015). PracTools: Tools for Designing and Weighting
Survey Samples. R package version 0.2.
http://CRAN.R-project.org/package=PracTools.
Techniques d’enquête publie des articles sur les divers aspects des méthodes statistiques qui intéressent un organisme statistique comme, par exemple, les problèmes de conception découlant de contraintes d’ordre pratique, l’utilisation de différentes sources de données et de méthodes de collecte, les erreurs dans les enquêtes, l’évaluation des enquêtes, la recherche sur les méthodes d’enquête, l’analyse des séries chronologiques, la désaisonnalisation, les études démographiques, l’intégration de données statistiques, les méthodes d’estimation et d’analyse de données et le développement de systèmes généralisés. Une importance particulière est accordée à l’élaboration et à l’évaluation de méthodes qui ont été utilisées pour la collecte de données ou appliquées à des données réelles. Tous les articles seront soumis à une critique, mais les auteurs demeurent responsables du contenu de leur texte et les opinions émises dans la revue ne sont pas nécessairement celles du comité de rédaction ni de Statistique Canada.
Présentation de textes pour la revue
Techniques d’enquête est publiée en version électronique deux fois l’an. Les auteurs désirant faire paraître un article sont invités à le faire parvenir en français ou en anglais en format électronique et préférablement en Word au rédacteur en chef, (statcan.smj-rte.statcan@canada.ca, Statistique Canada, 150 Promenade du Pré Tunney, Ottawa, (Ontario), Canada, K1A 0T6). Pour les instructions sur le format, veuillez consulter les directives présentées dans la revue ou sur le site web (www.statcan.gc.ca/Techniquesdenquete).
Note de reconnaissance
Le succès du système statistique du Canada repose sur un partenariat bien établi entre Statistique Canada et la population, les entreprises, les administrations canadiennes et les autres organismes. Sans cette collaboration et cette bonne volonté, il serait impossible de produire des statistiques précises et actuelles.
Normes de service à la clientèle
Statistique Canada s'engage à fournir à ses clients des services rapides, fiables et courtois. À cet égard, notre organisme s'est doté de normes de service à la clientèle qui doivent être observées par les employés lorsqu'ils offrent des services à la clientèle.
Droit d'auteur
Publication autorisée par le ministre responsable de Statistique Canada.