5. Sommaire

Jeroen Pannekoek et Li-Chun Zhang

Précédent

Dans le présent article, nous avons formulé une approche d’optimisation du problème d’incohérence de microniveau qui peut résulter d’erreurs de mesure et/ou de l’imputation de valeurs manquantes. Cette approche fournit une méthodologie générale qui s’étend au-delà des méthodes d’ajustement avec contrainte unique classiques, telles que l’ajustement proportionnel. Toutes les contraintes sont traitées simultanément; si une variable figure dans plus d’une contrainte, elle est ajustée en fonction de chacune d’elles. En plus d’être optimale en ce qui a trait à la fonction de distance (ou de divergence) choisie, l’approche a l’avantage pratique de ne pas nécessiter la spécification de l’ordre d’application des contraintes.

Plusieurs fonctions de distance (ou de divergence) sont analysées. Il est montré que minimiser la distance selon les moindres carrés pondérés mène à des ajustements additifs et minimiser la mesure de divergence de Kullback-Leibler aboutit à des ajustements multiplicatifs. Cependant, pour un choix particulier de poids, la solution MCP du problème d’optimisation est une approximation de la solution KL.

Les ajustements basés sur des hypothèses statistiques en plus des contraintes logiques sont introduits sous l’approche du ratio généralisé. Les ajustements RG sont considérés comme une généralisation de l’ajustement par ratio unique sous un modèle de ratio. Tous les ratios entre les enregistrements receveur et donneur propres à une variable observée sont utilisés; une variable qui ne figure dans aucune contrainte peut également être ajustée si elle est incluse dans la fonction de distance.

Nous discutons aussi des ajustements dans les cas de données catégoriques, d’enregistrements avec données totalement manquantes et de contraintes d’étalonnage de macroniveau en plus des contraintes de cohérence de microniveau. Dans son ensemble, l’approche d’optimisation proposée est applicable à des données continues dans un certain nombre de situations.

Remerciements

Les opinions exprimées dans le présent article sont celles des auteurs et ne reflètent pas nécessairement les politiques de Statistics Netherlands.

Bibliographie

Banff Support Team (2008). Functional Description of the Banff System for Edit and Imputation. Rapport Technique, Statistique Canada.

Bankier, M., Lachance, M. et Poirier, P. (2000). 2001 Canadian Census Minimum Change Donor Imputation Methodology. Document de travail 17, UN/ECE Work Session on Statistical Data Editing, Cardiff.

Beaumont, J.-F. (2005). Calibrated imputation in surveys under a quasi-model-assisted approach. Journal of the Royal Statistical Society, Series B (Statistical Methodology), 67, 445-458.

Boyd, S., et Vandenberghe, L. (2004). Convex Optimization. Cambridge University Press, Cambridge.

Censor, Y., et Zenios, S.A. (1997). Parallel Optimization. Theory, Algorithms, and Applications. Oxford University Press, New York.

Chambers, R.L., et Ren, R. (2004). Outlier robust imputation of survey data. Dans Proceedings of the Survey Research Methods Section, American Statistical Association, 3336-3344.

Chen, J., et Shao, J. (2000). Biases and variances of survey estimators based on nearest neighbour imputation. Journal of Official Statistics, 16, 113-132.

de Waal, T., Pannekoek, J. et Scholtus, S. (2011). Handbook of Statistical Data Editing and Imputation. New Jersey : John Wiley & Sons Inc., Hoboken.

Luenberger, D.G. (1984). Linear and Nonlinear Programming, Second Edition. Addison-Wesley, Reading.

Pannekoek, J., Shlomo, N. et de Waal, T. (2013). Calibrated imputation of numerical data under linear edit restrictions. Annals of Applied Statistics, 7, 1983-2006.

Särndal, C.-E., Swensson, B. et Wretman, J. (1992). Model Assisted Survey Sampling. Springer-Verlag.

van der Loo, M. (2012). rspa: Adapt numerical records to (in)equality restrictions with the Successive Projection Algorithm. R package version 0.1-5. Disponible au : http://cran.r-project.org/web/packages/rspa/index.html.

Zhang, L.-C. (2009). A Triple-Goal Imputation Method for Statistical Registers. Document de travail 28, UN/ECE Work Session on Statistical Data Editing, Neuchâtel, Suisse.

Précédent

Date de modification :