Une mise en garde concernant la winsorisation de Clark Section 5. Sommaire

L’usage de la winsorisation de Clark est très tentant en raison de la simplicité de sa mise en œuvre et de l’absence de paramètres, à condition que l’on puisse construire un modèle de régression robuste viable. Cependant, à l’instar de nombreuses procédures de détection des valeurs aberrantes, la méthode présente certaines vulnérabilités qui ne sont pas toujours évidentes. La présente note montre que la procédure peut être efficace pour identifier et traiter les valeurs influentes, mais est également très sensible au nombre de valeurs influentes dans l’échantillon et à leur taille en ce qui concerne la droite de régression utilisée pour déterminer les bornes de la zone de détection. Les propriétés de la zone de détection varient selon qu’une valeur influente est présente ou non, et selon le nombre et la gravité lorsqu’une ou plusieurs de ces valeurs apparaissent. Si l’échantillon ne contient aucune valeur influente, la procédure est anticonservatrice en ce sens qu’elle tronque des valeurs non considérées influentes pour minimiser l’EQM (en réduisant la variance). En revanche, elle peut devenir très conservatrice en fonction du degré d’écart entre la valeur influente pondérée et les autres valeurs figurant dans l’échantillon. Quand celui-ci contient deux valeurs influentes ou plus, la winsorisation de Clark ne permet de détecter et d’ajuster que les valeurs influentes et ne tronque aucune valeur qui n’est pas influente. Toutefois, nos résultats montrent qu’il existe des possibilités de masquage qui doivent être prises en considération lors de l’application de la procédure.

Si l’existence d’une valeur influente est un événement vraiment rare et que les grandes valeurs influentes présentent un intérêt, la légère troncature d’une poignée de valeurs qui ne sont pas influentes sera un inconvénient. Par contre, dans les applications où des valeurs influentes sont fréquentes ou celles pour lesquelles des données historiques ne sont pas disponibles pour la modélisation, avant d’exécuter la winsorisation de Clark, il faut définitivement évaluer la quantité de troncature pour déterminer si les petits changements agrégés influent considérablement sur le total estimé. Dans la négative, il s’agit d’une approche intéressante. Dans l’affirmative, d’autres méthodes, telle l'estimation M qui offre plus de contrôle sur la zone de détection, pourraient être avantageuses.

Remerciements

Le présent rapport est publié en vue d’informer les parties intéressées et de favoriser la discussion des travaux en cours. Les opinions exprimées concernant les questions statistiques, méthodologiques et opérationnelles sont celles des auteurs et ne représentent pas forcément celles du U.S. Census Bureau. Les auteurs remercient Lynn Weidman, Eric Slud, Scott Scheleur, William C. Davie Jr. et Carma Hogue pour leurs révisions constructives des versions antérieures du manuscrit. Les auteurs remercient également Ray Chambers pour les commentaires qu’il a formulés durant les exposés de leurs travaux en cours. Les auteurs apprécient les commentaires du rédacteur associé et des examinateurs anonymes.

Bibliographie

Barnett, V., et Lewis, T. (1994). Outliers in Statistical Data. 3rd Edition. New York: John Wiley & Sons, Inc.

Beaumont, J.-F., et Alavi, A. (2004). Estimation robuste par la régression généralisée. Techniques d’enquête, 30, 2, 217-231. Article accessible à l'adresse http://www.statcan.gc.ca/pub/12-001-x/2004002/article/7752-fra.pdf.

Chambers, R.L. (1986). Outlier robust finite population estimation. Journal of the American Statistical Association, 81, 1063-1069.

Chambers, R., Kokic, P., Smith, P. et Cruddas, M. (2000). Winsorization for identifying and treating outliers in economic surveys. ICES II, The Second International Conference on Establishment Surveys, Survey Methods for Businesses, Farms, and Institutions, American Statistical Association, 717-726.

Clark, R. (1995). Winsorization Methods in Sample Surveys. Thèse de maîtrise. Department of Statistics. Australia National University. http://hdl.handle.net/10440/1031 (consulté le 29 septembre 2016).

Kokic, P.N., et Bell, P.A. (1994). Optimal winsorising cut-offs for a stratified finite population estimator. Journal of Official Statistics, Stockholm, Suède, 10, 419-435.

Martinoz, C.F., Haziza, D. et Beaumont, J.-F. (2015). Une méthode de détermination du seuil pour la winsorisation avec application à l’estimation pour des domaines. Techniques d’enquête, 41, 1, 59-79. Article accessible à l'adresse http://www.statcan.gc.ca/pub/12-001-x/2015001/article/14199-fra.pdf.

Mulry, M.H., Oliver, B.E. et Kaputa, S.J. (2014). Detecting and treating verified influential values in a monthly retail trade survey. Journal of Official Statistics, 30(4), 1-28.

SAS (2014). Help and Documentation. SAS Institute, Inc. Cary, NC.

Smith, P. (2013). Sampling and estimation for business surveys. Dans Designing and Conducting Business Surveys, (Éds., G. Snijkers, G. Haraldsen, J. Jones et D. Willimack), Hoboken, NJ: John Wiley & Sons, Inc., 219-52.

U.S. Census Bureau (2014). Monthly Retail Trade Survey Methodology. U.S. Census Bureau, Washington, DC. http://www.census.gov/retail/mrts/how_surveys_are_collected.html (consulté le 29 septembre 2016).

Date de modification :