7 Conclusion et futurs travaux

Marco Ballin et Giulio Barcaroli

Précédent

Pour toute enquête par sondage polyvalente et à domaines multiples, la stratification optimale de la base de sondage peut être déterminée en même temps que la taille optimale de l'échantillon et la répartition optimale des unités entre les strates, en combinant l'utilisation de l'algorithme de Bethel (ou, plus généralement, d'un résolveur de programmation non linéaire) pour déterminer la taille minimale d'échantillon requise pour satisfaire les contraintes de précision, et de l'algorithme génétique pour l'exploration de l'univers des stratifications potentielles, générées de façon rigoureuse conformément à la théorie des partitions. L'information requise est presque la même que celle nécessaire pour le problème de répartition de l'échantillon, à savoir la précision souhaitée pour les estimations du total (ou des moyennes) des variables cibles, et l'information concernant la distribution de chaque variable cible dans les strates de population. La stratification initiale doit être considérée au niveau le plus détaillé (stratification atomique), c.-à-d. celle déterminée par le produit cartésien des valeurs de toutes les variables de stratification disponibles.

L'exploration complète de l'ensemble de toutes les stratifications possibles entraîne, dans certains cas, des calculs prohibitifs. L'utilisation de l'algorithme génétique permet d'explorer l'espace des solutions d'une manière très efficace. En ajustant minutieusement les paramètres d'exécution, il est possible de déterminer la solution optimale, ou du moins une solution s'écartant vraisemblablement peu de la solution optimale.

L'application de cet algorithme à deux enquêtes différentes (l'Enquête italienne sur la structure des exploitations agricoles de 2003 et l'Enquête mensuelle sur le lait et les produits laitiers de 2010) a montré que les solutions obtenues sont nettement meilleures, en ce qui concerne l'efficacité de l'échantillon, que celles produites manuellement par les méthodologistes spécialisés (à Istat, l'algorithme a été appliqué à trois autres enquêtes : « Economic outcomes of agricultural holdings », « Structure and production of main wooden cultivations », « Survey on forecasting of some herbal crops sowing »).

Dans tous les cas mentionnés, il a été possible de calculer les valeurs nécessaires comme données d'entrée dans notre algorithme (en particulier, les moyennes et les écarts-types des variables cibles dans les différentes strates atomiques), parce que les valeurs connexes figuraient dans la base de sondage pour chaque unité. Dans des situations plus réalistes, ce genre d'information n'est pas directement disponible. À sa place, nous pourrions utiliser des estimations produites en partant d'autres sources, comme des données administratives, d'autres enquêtes ou des cycles antérieurs de la même enquête, voire même d'hypothèses (habituellement prudentes) sur la variabilité des variables cibles dans les strates. Selon Rivest (2002), il est possible de modéliser les variables cibles en se servant des variables auxiliaires X MathType@MTEF@5@5@+= feaagKart1ev2aqatCvAUfeBSjuyZL2yd9gzLbvyNv2CaerbuLwBLn hiov2DGi1BTfMBaeXatLxBI9gBaerbd9wDYLwzYbItLDharqqtubsr 4rNCHbGeaGqiVu0Je9sqqrpepC0xbbL8F4rqqrFfpeea0xe9LqFf0x e9q8qqvqFr0dXdbrVc=b0P0xb9sq=fFfeu0RXxb9qr0dd9q8as0lf9 Fve9Fve9vapdbaqaaeGacaGaaiaabeqaamaabaabaaGcbaGaamiwaa aa@3ADE@ comme variables explicatives, afin d'estimer les moyennes et les écarts-types sur la base des valeurs prédites de Y . MathType@MTEF@5@5@+= feaagKart1ev2aqatCvAUfeBSjuyZL2yd9gzLbvyNv2CaerbuLwBLn hiov2DGi1BTfMBaeXatLxBI9gBaerbd9wDYLwzYbItLDharqqtubsr 4rNCHbGeaGqiVu0Je9sqqrpepC0xbbL8F4rqqrFfpeea0xe9LqFf0x e9q8qqvqFr0dXdbrVc=b0P0xb9sq=fFfeu0RXxb9qr0dd9q8as0lf9 Fve9Fve9vapdbaqaaeGacaGaaiaabeqaamaabaabaaGcbaGaamywai aac6caaaa@3B91@ Naturellement, la méthode proposée sera d'autant moins robuste que l'information sur les variables cibles est moins « directe », à cause de l'incertitude due à l'utilisation d'information indirecte ou de prédictions fondées sur un modèle.

Une autre limite de l'approche continue d'être liée au traitement des variables auxiliaires continues. Dans notre approche, nous suggérons simplement de les transformer en variables catégoriques afin de pouvoir en tenir compte dans la détermination de l'univers de toutes les stratifications possibles de la base de sondage. Un premier élément des prochains travaux consistera à donner des indications sur la façon de transformer ces variables afin d'obtenir la meilleur forme possible. Un deuxième élément tient au fait que certaines strates contenues dans la solution optimale peuvent être caractérisées par des valeurs non contiguës des variables continues transformées ou des variables catégoriques ordinales, une situation bizarre qui ne devrait pas être permise. Elle pourrait être évitée en imposant des contraintes sur la génération des solutions possibles.

Bibliographie

Baillargeon, S., et Rivest, L.-P. (2009). A general algorithm for univariate stratification. Revue Internationale de Statistique, 77, 3, 331-344.

Baillargeon, S., et Rivest, L.-P. (2011). Élaboration de plans stratifiés en R à l’aide du programme stratification. Techniques d’enquête, 37, 1, 59-72.

Barcaroli, G., Pagliuca, D. et Willighagen, E. (2013a). SamplingStrata: Optimal stratification of sampling frames for multipurpose sampling surveys. R package version 1.0-1. http://cran.r-project.org/web/packages/SamplingStrata/index.html.

Barcaroli, G. (2013b). Optimization of sampling strata with the SamplingStrata package. http://cran.r-project.org/web/packages/SamplingStrata/vignettes/SamplingStrataVignette.pdf.

Benedetti, R., Espa, G. et Lafratta, G. (2008). Une approche arborescente de la formation de strates dans les enquêtes-entreprises polyvalentes. Techniques d’enquête, 34, 2, 217-226.

Bethel, J. (1985). An optimum allocation algorithm for multivariate surveys. American Statistical Proceedings of the Survey Research Methods Section, 209-212.

Bethel, J. (1989). Répartition de l’échantillon dans les enquêtes à plusieurs variables. Techniques d’enquête, 15, 1, 49-60.

Chromy, J.B. (1987). Design optimization with multiple objectives. Proceedings of the American Statistical Association Section on Survey Research Methods 1987, 194-199.

Cochran, W.G. (1977). Sampling Techniques. New York: John Wiley & Sons, Inc.

Dalenius, T., et Hodges, J.L. (1959). Minimum variance stratification. Journal of American Statistical Association, 54, 88-101.

Day, C.D. (2006). Application of an evolutionary algorithm to multivariate optimal allocation in stratified sampling designs. Proceedings of the American Statistical Association Section on Survey Research Methods 2006 [CD-ROM].

Day, C.D. (2010). A multi-objective evolutionary algorithm for multivariate optimal allocation. Section on Survey Research Methods - JSM 2010, 3351-3358.

Díaz-García, J.A., et Cortez, L.U. (2008). Optimisation multi-objective pour une répartition optimale dans l’échantillonnage stratifié multivarié. Techniques d’enquête, 34, 2, 237-245.

Gunning, P., et Horgan, J.M. (2004). Un nouvel algorithme pour la construction de bornes de stratification dans les populations asymétriques. Techniques d’enquête, 30, 2, 177-185.

Hankin, R.K.S., et West, L.J. (2007). Set Partitions in R. Journal of Statistical Software, Code Snippet 2. December 2007, 23, http://www.jstatsoft.org/.

Hankin, R.K.S. (2011). Partitions: Additive partitions of integers. R package version 1.9-19. http://cran.r-project.org/web/packages/partitions/index.html.

Hartigan, J.A., et Wong, M.A. (1979). A k-means clustering algorithm. Applied Statistics, 28, 100-108.

Hidiroglou, M.A. (1986). The costruction of self-representing stratum of large units in survey design. The American Statistician, 40, 27-31.

Huddleston, H.F., Claypool, P.L. et Hocking, R.R. (1970). Optimal sample allocation to strata using convex programming. Applied Statistics, 19, 273-278.

Keskintürk, T., et Er, S. (2007). A genetic algorithm approach to determine stratum boundaries and sample sizes of each stratum in stratified sampling. Computational Statistics and Data Analysis, 15 September 2007, 52, 1, 53-67.

Khan, M.G.M., Nand, N. et Ahmad, N. (2008). Détermination des bornes optimales de strate au moyen de la programmation dynamique. Techniques d’enquête, 34, 2, 227-236.

Khan, M.G.M., Maiti, T. et Ahsan, M.J. (2010). An optimal multivariate stratified sampling design using auxiliary information: An integer solution using goal programming approach. Journal of Official Statistics, 26, 4, 695-708.

Kish, L. (1976). Optima and proxima in linear sample designs. Journal of the Royal Statistical Society, Series A, 159, 80-95.

Kozak, M., Verma, M.R. et Zieliński, A. (2007). Modern approach to optimum stratification: Review and perspectives. Statistics in Transition, 8(2), 223-250.

Kozak, M., Zieliński, A. et Singh, S. (2008). Stratified two-stage sampling in domains: Sample allocation between domains, strata, and sampling stages. Statistics & Probability Letter, Juin 2008, 78, 8, 970-974.

Kozak, M., et Wang, H.Y. (2010). On stochastic optimization in sample allocation among strata. Metron - International Journal of Statistics, LXVIII, 1, 95-103.

Lavallée, P., et Hidiroglou, M.A. (1988). Sur la stratification de populations asymétriques. Techniques d’enquête, 14, 1, 35-45.

Rivest, L.-P. (2002). Une généralisation de l’algorithme de Lavallée et Hidiroglou pour la stratification dans les enquêtes auprès des entreprises. Techniques d’enquête, 28, 2, 207-214.

Schmitt, L.M. (2001). Theory of genetic algorithms. Theoretical Computer Science, 259, 1-61.

Schmitt, L.M. (2004). Theory of genetic algorithms II: Models for genetic operators over the string-tensor representation of populations and convergence to global optima for arbitrary fitness function under scaling. Theoretical Computer Science, 310, 181-231.

Singh, R. (1971). Approximately optimum stratification on the auxiliary variables. Journal of the American Statistical Association, 66, 829-833.

Stokes, L., et Plummer, J. (2004). Using spreadsheet solvers in sample design. Computational Statistics & Data Analysis, 44, 527-546.

Vose, M.D. (1999). The Simple Genetic Algorithm: Foundations and Theory, MIT Press, Cambridge, MA.

Willighagen, E. (2012). Genalg: R Based Genetic Algorithm. R package version 0.1.1. http://cran.r-project.org/web/packages/genalg/index.html.

Précédent

Date de modification :