Une mesure de l’effet de plan pour la pondération par calage dans les échantillons à un degré 5. Discussion, limites et conclusionsUne mesure de l’effet de plan pour la pondération par calage dans les échantillons à un degré 5. Discussion, limites et conclusions

Nous proposons un nouvel effet de plan qui permet d’évaluer l’effet des ajustements de la pondération par calage sur un total estimé dans le cas d’un échantillonnage à un degré. Deux mesures existantes des effets de plan sont l’« effet de plan dû à la pondération » de Kish (1965) et celle établie par Spencer (2000). Ni l’une ni l’autre de ces mesures ne permet de tenir compte des gains d’efficacité dus au calage. Le $deff$ de Kish est une mesure raisonnable si l’équipondération est optimale ou quasi optimale, mais ne révèle pas les gains d’efficacité qui pourraient être attribuables à l’échantillonnage avec probabilités variables. Le $deff$ de Spencer indique si l’estimateur HT (ou $pwr)$ est plus efficace sous échantillonnage avec probabilités variables que sous $eas .$ Toutefois, le $deff$ de Spencer ne rend compte d’aucun gain d’efficacité dû à l’utilisation du calage.

L’effet de plan que nous proposons mesure l’effet de l’échantillonnage avec probabilités variables ainsi que celui de l’utilisation d’un estimateur par calage, tel que l’estimateur GREG, qui tire parti de l’information auxiliaire. Comme nous le démontrons empiriquement, les effets de plan proposés ne pénalisent pas l’utilisation de poids inégaux quand la relation entre la variable étudiée et la covariable de calage est forte. Nous démontrons aussi empiriquement que les composantes de corrélation dans la mesure de Spencer et dans notre mesure proposée peuvent être importantes dans certaines situations. Il n’est pas très difficile de calculer ces composantes, et celles-ci devraient être incorporées dans la mesure du possible pour éviter de surestimer les effets de plan. Cependant, les fortes corrélations entre les variables étudiées et les variables auxiliaires que nous avons observées dans nos données sur une pseudopopulation d’établissements pourraient être irréalisables dans le cas de certaines enquêtes pour lesquelles l’information auxiliaire fait défaut. Dans les cas où l’information auxiliaire est inefficace ou n’est pas utilisée, la mesure proposée s’approche du $deff$ de Kish. La mesure présentée ici est applicable à l’échantillonnage à un degré, mais peut être étendue à des plans d’échantillonnage plus complexes, dont l’échantillonnage en grappes.

Notre mesure s’appuie sur le modèle qui sous-tend l’estimateur par la régression généralisée pour étendre la mesure de Spencer. La variable étudiée, les covariables et les poids sont nécessaires pour produire l’estimation de l’effet de plan. Puisque la variance (3.2) est approximativement correcte dans le cas de grands échantillons pour tous les estimateurs par calage, notre effet de plan devrait refléter les effets de nombreuses formes de méthodes d’ajustement de la pondération fréquemment utilisées, y compris la poststratification, le ratissage et la régression GREG. Bien que l’on puisse calculer des effets de plan tenant compte de ces ajustements directement d’après les variances estimées, il est important que les praticiens sachent que les $deff$ existants de Kish et de Spencer ne reflètent aucun des gains découlant de ces ajustements. Le $deff$ proposé dans le présent article sert donc à corriger ce défaut.

Comme considération pratique, le $deff$ de (3.4) est disponible dans la fonction « deffH » du package « PracTools » de R; voir Valliant et coll. (2015) pour la documentation et les exemples.

Remerciements

Nous remercions les examinateurs de leurs révisions approfondies qui ont permis d’améliorer la présentation. Les opinions exprimées sont celles des auteurs et ne reflètent pas celles de l’Internal Revenue Service.

Annexe

Effet de plan proposé sous échantillonnage à un degré

La présente annexe donne une esquisse du calcul du $deff$ proposé. La plupart de la notation a été définie aux sections précédentes de l’article. La probabilité moyenne dans la population pour un tirage est $\bar{P} = N^{- 1} \sum_{i = 1}^{N} p_{i} .$ Supposons que le plan d’échantillonnage satisfait $\bar{P} = N^{- 1} .$ Considérons le modèle $y_{i} = α + x_{i}^{T} β + ε_{i} .$ Si la population finie complète était disponible, la droite de régression par les moindres carrés pour la population serait

$y_{i} = A + x_{i}^{T} B + e_{i}, (A .1)$

où $A$ et $B$ sont les valeurs obtenues en ajustant une droite de régression par les moindres carrés ordinaire à la population finie complète. C’est-à-dire $A = \bar{Y} - B \bar{X},$ $B = {(X^{T} X)}^{- 1} X^{T} y,$ où $X$ est la matrice de dimensions $N \times p$ des variables auxiliaires de la population, $\bar{Y} = N^{- 1} \sum_{i = 1}^{N} y_{i}$ est la moyenne de la population, et $\bar{X}$ est le vecteur des moyennes de la population des $x .$ Les $e_{i}$ sont définis comme étant les résidus dans la population finie, $e_{i} = y_{i} - A - x_{i}^{T} B,$ et ne sont pas les erreurs d’un modèle de superpopulation. Désignons la variance dans la population des $y,$ des $e,$ des $e^{2}$ et des poids comme étant $σ_{y}^{2}, σ_{e}^{2}, σ_{e^{2}}^{2}, σ_{w}^{2},$ par exemple, $σ_{y}^{2} = N^{- 1} \sum_{i = 1}^{N} {(y_{i} - \bar{Y})}^{2},$ et les corrélations en population finie entre les variables désignées par les indices inférieurs comme étant $ρ_{y p}, ρ_{e w},$ et $ρ_{e^{2} w} .$ La variance sous le plan théorique de l’estimateur GREG dans le cas de l’échantillonnage avec remise est

$\begin{array}{l} Var ({\hat{T}}_{GREG}) & = n^{- 1} \sum_{i = 1}^{N} p_{i} {(e_{i} / p_{i} - E_{U})}^{2} \\ = n^{- 1} (\sum_{i = 1}^{N} e_{i}^{2} / p_{i} - E_{U}^{2}), \end{array} (A .2)$

où $E_{U} = \sum_{i = 1}^{N} e_{i} .$ L’utilisation du modèle (A.1) produit un effet de plan comprenant plusieurs termes complexes, dont beaucoup contiennent des corrélations qui ne peuvent pas être abandonnées comme dans l’approximation de Spencer. L’effet de plan peut être simplifié en utilisant une formulation de rechange : $u_{i} = A + e_{i},$ où $u_{i} = y_{i} - x_{i}^{T} B .$ Premièrement, nous réécrivons le total de population des $e_{i}$ sous la forme $E_{U} = \sum_{i = 1}^{N} e_{i} = N \bar{U} - N A,$ où $\bar{U} = N^{- 1} \sum_{i = 1}^{N} u_{i} .$ D’où, $E_{U}^{2} = {(N \bar{U})}^{2} + {(N A)}^{2} - 2 N^{2} \bar{U} A .$ Deuxièmement, en utilisant $w_{i} = {(n p_{i})}^{- 1},$ ou $p_{i} = {(n w_{i})}^{- 1},$ nous réécrivons la composante $\sum_{i = 1}^{N} e_{i}^{2} / p_{i}$ sous la forme

$\begin{array}{l} \sum_{i = 1}^{N} e_{i}^{2} / p_{i} & = \sum_{i = 1}^{N} \frac{{(u_{i} - A)}^{2}}{{(n w_{i})}^{- 1}} \\ = n \sum_{i = 1}^{N} w_{i} u_{i}^{2} + n A^{2} \sum_{i = 1}^{N} w_{i} - 2 n A \sum_{i = 1}^{N} w_{i} u_{i} . \end{array} (A .3)$

Soustraire $E_{U}^{2}$ de (A.3) et diviser par $n$ donne

$\begin{array}{l} n^{- 1} (\sum_{i = 1}^{N} e_{i}^{2} / p_{i} - E_{U}^{2}) & = \sum_{i = 1}^{N} w_{i} u_{i}^{2} - n^{- 1} {(N \bar{U})}^{2} \\ + A^{2} (\sum_{i = 1}^{N} w_{i} - n^{- 1} N^{2}) \\ + n^{- 1} 2 N^{2} \bar{U} A - 2 A \sum_{i = 1}^{N} w_{i} u_{i} . \end{array} (A .4)$

En suivant l’approche de Spencer en utilisant les substitutions des covariances, le premier et le cinquième termes dans (A.4) peuvent être réécrits comme ${\sum_{i = 1}^{N} w_{i} u_{i}^{2} = N ρ_{u^{2} w} σ_{u^{2}} σ}_{w} + N \bar{W} (σ_{u}^{2} + {\bar{U}}^{2})$ et $\sum_{i = 1}^{N} w_{i} u_{i} = N ρ_{u w} σ_{u} σ_{w} + N \bar{W} \bar{U} .$ En introduisant ces expressions dans la variance (A.4), on obtient

$\begin{array}{l} n^{- 1} (\sum_{i = 1}^{N} e_{i}^{2} / p_{i} - E_{U}^{2}) & = N ρ_{u^{2} w} σ_{u^{2}} σ_{w} + N \bar{W} (σ_{u}^{2} + {\bar{U}}^{2}) - n^{- 1} {(N \bar{U})}^{2} \\ + N A^{2} (\bar{W} - n^{- 1} N) \\ + 2 n^{- 1} N^{2} \bar{U} A - 2 A (N ρ_{u w} σ_{u} σ_{w} + N \bar{W} \bar{U}) . \end{array} (A .5)$

La variance de l’estimateur $pwr$ sous échantillonnage aléatoire simple avec remise, où $p_{i} = N^{- 1},$ se réduit à ${Var}_{easar} ({\hat{T}}_{pwr}) = N^{2} σ_{y}^{2} / n .$ En prenant le ratio de (A.5) à la variance de l’estimateur $pwr,$ on obtient l’effet de plan suivant :

$\begin{array}{l} {Deff}_{H} & = {Var}_{GREG} ({\hat{T}}_{cal}) / {Var}_{easar} ({\hat{T}}_{pwr}) \\ = \frac{n \bar{W}}{N} (\frac{σ_{u}^{2}}{σ_{y}^{2}}) + \frac{{(\bar{U} - A)}^{2}}{σ_{y}^{2}} (\frac{n \bar{W}}{N} - 1) \\ + \frac{n σ_{w}}{N σ_{y}^{2}} (ρ_{u^{2} w} σ_{u^{2}} - 2 A ρ_{u w} σ_{u}) . \end{array} (A .6)$

Comme $u_{i} = A + e_{i}, \bar{U} = A,$ l’expression (A.6) devient

${Deff}_{H} = \frac{n \bar{W}}{N} (\frac{σ_{u}^{2}}{σ_{y}^{2}}) + \frac{n σ_{w}}{N σ_{y}^{2}} (ρ_{u^{2} w} σ_{u^{2}} - 2 A ρ_{u w} σ_{u}) . (A .7)$

Nous estimons la mesure (A.7) au moyen de

${deff}_{H} \approx (1 + {[CV (w)]}^{2}) \frac{{\hat{σ}}_{u}^{2}}{{\hat{σ}}_{y}^{2}} + \frac{n {\hat{σ}}_{w}}{N {\hat{σ}}_{y}^{2}} ({\hat{ρ}}_{u^{2} w} {\hat{σ}}_{u^{2}} - 2 \hat{α} {\hat{ρ}}_{u w} {\hat{σ}}_{u}), (A .8)$

où les estimations des paramètres du modèle sont définies aux sections 2.3 et 3.

Bibliographie

Brick, M., et Montaquila, J. (2009). Nonresponse. Dans Handbook of Statistics, Sample Surveys: Design, Methods and Application, (Éds., D. Pfeffermann et C.R. Rao), 29A, Amsterdam : Elsevier BV.

Chambers, J.M., Cleveland, W.S., Kleiner, B. et Tukey, P.A. (1983). Graphical Methods for Data Analysis. Pacific Grove CA : Wadsworth.

Deville, J.-C., et Särndal, C.-E. (1992). Calibration estimators in survey sampling. Journal of the American Statistical Association, 87, 376-382.

Deville, J.-C., Särndal, C.-E. et Sautory, O. (1993). Generalized raking procedures in survey sampling. Journal of the American Statistical Association, 88, 1013-1020.

Hansen, M.H., et Hurwitz, W.N. (1943). On the theory of sampling from a finite population. Annals of Mathematical Statistics, 14, 333-362.

Horvitz, D., et Thompson, D. (1952). A generalisation of sampling without replacement from a finite universe. Journal of the American Statistical Association, 47, 663-685.

Kalton, G., et Flores-Cervantes, A. (2003). Weighting methods. Journal of Official Statistics, 19 (2), 81-97.

Kish, L. (1965). Survey Sampling. New York : John Wiley & Sons, Inc.

Kish, L. (1990). Weighting: Why, when, and how? Proceedings of the Joint Statistical Meetings, Section on Survey Research Methods, American Statistical Association, 121-129.

Kish, L. (1992). Weighting for unequal Pi. Journal of Official Statistics, 8, 183-200.

Kott, P. (2009). Calibration weighting: Combining probability samples and linear prediction models. Dans Handbook of Statistics, Sample Surveys: Design, Methods and Application, (Éds., D. Pfeffermann et C.R. Rao), 29B, Amsterdam : Elsevier BV.

Lumley, T. (2012). Survey: Analysis of complex survey samples. R package version 3.28-2.

Park, I., et Lee, H. (2004). Effets de plan pour les estimateurs pondérés de la moyenne et du total sous échantillonnage complexe. Techniques d’enquête, 30, 2, 205-216.

Rao, J.N.K., et Scott, A.J. (1984). On chi-squared tests for multiway contingency tables with cell proportions estimated from survey data. Annals of Statistics, 12, 46-60.

Särndal, C.-E., et Lundström, S. (2005). Estimation in Surveys with Nonresponse. New York : John Wiley & Sons, Inc.

Särndal, C.-E., Swensson, B. et Wretman, J. (1992). Model Assisted Survey Sampling. New York : Springer: Berlin.

Spencer, B.D. (2000). Un effet de plan de sondage approximatif pour une pondération inégale en cas de corrélation possible entre les mesures et les probabilités de sélection. Techniques d’enquête, 26, 2, 153-155.

Statistics of Income (2011). 2007 Charities & Tax-Exempt Microdata Files. Disponible au : http://www.irs.gov/uac/SOI-Tax-Stats-2007-Charities-&-Tax-Exempt-Microdata-Files.

Valliant, R., Dever, J.A. et Kreuter, F. (2013). Practical Tools for Designing and Weighting Survey Samples. New York : Springer.

Valliant, R., Dever, J.A. et Kreuter, F. (2015). PracTools: Tools for Designing and Weighting Survey Samples. R package version 0.2. http://CRAN.R-project.org/package=PracTools.

Politique de rédaction

Techniques d’enquête publie des articles sur les divers aspects des méthodes statistiques qui intéressent un organisme statistique comme, par exemple, les problèmes de conception découlant de contraintes d’ordre pratique, l’utilisation de différentes sources de données et de méthodes de collecte, les erreurs dans les enquêtes, l’évaluation des enquêtes, la recherche sur les méthodes d’enquête, l’analyse des séries chronologiques, la désaisonnalisation, les études démographiques, l’intégration de données statistiques, les méthodes d’estimation et d’analyse de données et le développement de systèmes généralisés. Une importance particulière est accordée à l’élaboration et à l’évaluation de méthodes qui ont été utilisées pour la collecte de données ou appliquées à des données réelles. Tous les articles seront soumis à une critique, mais les auteurs demeurent responsables du contenu de leur texte et les opinions émises dans la revue ne sont pas nécessairement celles du comité de rédaction ni de Statistique Canada.

Présentation de textes pour la revue

Techniques d’enquête est publiée en version électronique deux fois l’an. Les auteurs désirant faire paraître un article sont invités à le faire parvenir en français ou en anglais en format électronique et préférablement en Word au rédacteur en chef, (statcan.smj-rte.statcan@canada.ca, Statistique Canada, 150 Promenade du Pré Tunney, Ottawa, (Ontario), Canada, K1A 0T6). Pour les instructions sur le format, veuillez consulter les directives présentées dans la revue ou sur le site web (www.statcan.gc.ca/Techniquesdenquete).

Note de reconnaissance

Le succès du système statistique du Canada repose sur un partenariat bien établi entre Statistique Canada et la population, les entreprises, les administrations canadiennes et les autres organismes. Sans cette collaboration et cette bonne volonté, il serait impossible de produire des statistiques précises et actuelles.

Normes de service à la clientèle

Statistique Canada s'engage à fournir à ses clients des services rapides, fiables et courtois. À cet égard, notre organisme s'est doté de normes de service à la clientèle qui doivent être observées par les employés lorsqu'ils offrent des services à la clientèle.

Droit d'auteur

Publication autorisée par le ministre responsable de Statistique Canada.

L'utilisation de la présente publication est assujettie aux modalités de l'Entente de licence ouverte de Statistique Canada.

N^o 12-001-X au catalogue

Périodicité : Semi-annuel

Ottawa

Date de modification :: 2017-09-20

Sélection de la langue

Recherche et menus

Recherche

Une mesure de l’effet de plan pour la pondération par calage dans les échantillons à un degré 5. Discussion, limites et conclusionsUne mesure de l’effet de plan pour la pondération par calage dans les échantillons à un degré 5. Discussion, limites et conclusions

Remerciements

Annexe

Effet de plan proposé sous échantillonnage à un degré

Bibliographie