Application des formulations de la programmation en nombres entiers à la répartition optimale dans l’échantillonnage stratifié
5. Observations finalesApplication des formulations de la programmation en nombres entiers à la répartition optimale dans l’échantillonnage stratifié
5. Observations finales
Dans cet article, nous avons proposé deux nouvelles formulations
permettant d’obtenir le minimum global dans les problèmes de répartition
multivariée optimale. On peut appliquer ces formulations exactes de la
programmation en nombres entiers de façon efficace en utilisant un logiciel
commercial (à savoir le module R
De plus, les formulations
proposées permettent de définir les tailles d’échantillon minimales par strate,
ce qui est très utile dans la pratique pour éviter les répartitions avec des
tailles d’échantillon inférieures à 2, par exemple, qui rendraient difficile
l’estimation de la variance. Ces tailles d’échantillon minimales peuvent être
fixées à des valeurs plus élevées (par exemple 5, 10, 30 ou un autre chiffre) afin
de s’assurer que les échantillons sont assez grands pour tolérer certains cas
de non-réponse ou qu’une estimation est possible pour chaque strate si les
strates sont utilisées comme domaines d’estimation.
L’approche proposée améliore les méthodes existantes en s’attaquant
directement au problème de répartition et en tenant compte de la non-linéarité de
la fonction objectif ou des contraintes, ainsi que de l’exigence selon laquelle
les tailles d’échantillon pour les strates doivent être des nombres entiers. Dans
la littérature sur ce sujet, les méthodes antérieures ne garantissent pas
l’obtention d’un optimum global ou elles produisent des répartitions à valeur
réelle qui doivent être arrondies à des nombres entiers.
Dans la pratique, les répartitions à valeur réelle ne constituent
pas un problème majeur, à moins que les tailles de population par strate
soient très petites ou que le
nombre de strates soit très élevé. Dans le premier cas, l’échantillonnage d’une
unité de plus ou de moins peut faire une grande différence dans les fractions
d’échantillonnage, ce qui peut avoir d’importantes incidences sur les variances.
Dans le deuxième cas, l’arrondissement des tailles d’échantillon attribuées peut
faire une différence dans la taille d’échantillon totale
Lorsque toutes les tailles de
population par strate
sont relativement grandes et
que le nombre de strates est raisonnable, l’arrondissement des tailles
d’échantillon qui ne sont pas des nombres entiers ne cause pas de problème.
Dans cet article, nous avons effectué quelques calculs visant essentiellement
à démontrer la faisabilité de l’approche proposée. La formulation C de l’approche
proposée permet d’obtenir des résultats comparables à ceux obtenus avec la
méthode de Bethel, en plus de produire des répartitions à valeurs entières qui correspondent
à l’optimum global. Cependant, comme peu de différences ont été constatées
entre la méthode de BSSM et celle de Bethel dans les applications examinées, il
n’y aurait guère d’avantages à adopter la méthode de BSSM. Les résultats obtenus
avec la formulation D représentaient des améliorations modestes par
rapport à ceux obtenus avec la méthode classique employée dans la comparaison.
D’autres recherches sont requises pour tester l’approche face à des problèmes
plus importants et pour en évaluer les mérites par rapport à d’autres méthodes dans
d’autres scénarios pratiques. Un avantage important de l’approche proposée est
qu’on peut appliquer les deux formulations en utilisant un logiciel commercial,
comme il est expliqué plus haut.
Remerciements
Cette étude a été financée par la
subvention de recherche E-26/111.947/2012 de FAPERJ.
Annexe A
Description des populations d’enquête examinées
dans l’expérience numérique
Tableau A1
Description des populations Sommaire du tableau
Le tableau montre les résultats de Description des populations. Les données sont présentées selon Population (titres de rangée) et Description et Variables d’enquête XXXX(figurant comme en-tête de colonne).
Population
Description
Variables d’enquête
CoffeeFarms
Plantations de café dans l’État de Paraná, au Brésil, d’après le recensement agricole de 1996.
Nombre de caféiers
Superficie agricole totale
Production de café
SchoolsNortheast
Données tirées du recensement des écoles de 2012, par école, région du Nord-Est du Brésil.
Nombre de salles de classe
Nombre d’employés
MunicSw
Données sur les municipalités suisses tirées du module
Superficie agricole
Superficie industrielle
Nombre de ménages
Population
Tableau A2
Stratification des populations Sommaire du tableau
Le tableau montre les résultats de Stratification des populations. Les données sont présentées selon Population (titres de rangée) et Stratification(figurant comme en-tête de colonne).
Population
Stratification
CoffeeFarms
Stratification en fonction de la variable Nombre de caféiers, en utilisant l’algorithme de Kozak disponible dans le module
SchoolsNortheast
Douze strates ont été formées en tenant compte du type d’école (4 catégories) et du nombre d’élèves (3 catégories). La stratification par taille des écoles a été effectuée en utilisant l’algorithme de mise en grappes
à l’intérieur de chaque type d’école.
MunicSw
Cette population est disponible dans le module
et les strates correspondent aux régions de la Suisse.
Tableau A3
Nombre de strates, nombre de variables d’enquête et taille totale pour les populations d’enquête examinées Sommaire du tableau
Le tableau montre les résultats de Nombre de strates. Les données sont présentées selon Population (titres de rangée) et XXXX(figurant comme en-tête de colonne).
Population
CoffeeFarms
3
3
20 472
SchoolsNortheast
12
2
75 084
MunicSw
7
4
2 896
Tableau A4
Résumés de la population par strate
Sommaire du tableau
Le tableau montre les résultats de Résumés de la population par strate
. Les données sont présentées selon Résumé (titres de rangée) et Strate, calculées selon XXXX unités de mesure (figurant comme en-tête de colonne).
Résumé
Strate
17 821
2 440
211
4 291
26 688
218 712
22
84
488
2 671
13 204
129 033
2 873
15 541
193 366
69
262
583
4 611
24 704
200 447
Tableau A5
Résumés de la population par strate
Sommaire du tableau
Le tableau montre les résultats de Résumés de la population par strate
. Les données sont présentées selon Strate (titres de rangée) et XXXX(figurant comme en-tête de colonne).
Strate
82
45,1
54,0
309,2
24,9
63
23,9
146,3
14,4
92,6
7
80,9
700,4
29
342,5
783
16,2
95,7
6,4
49,5
2 676
10,9
57,7
21,6
23,7
3 958
6,1
26,7
4,2
17,9
2 172
13,6
76,8
5,7
27,9
45 243
2,5
9,3
3
8,8
9 674
7,7
38,0
3,2
17,9
1 743
17,3
49,1
9,2
36,7
8 445
7,3
15,3
4,1
13,5
238
37,7
140,8
18,4
88,9
Tableau A6
Résumés de la population par strate
Sommaire du tableau
Le tableau montre les résultats de Résumés de la population par strate
. Les données sont présentées selon Résumé (titres de rangée) et Strate, calculées selon XXXX unités de mesure (figurant comme en-tête de colonne).
Résumé
Strate
589
913
321
171
471
186
245
262,5
367,2
262,7
438,0
429,5
668,9
47,0
5,5
5,3
9,7
13,3
7,9
11,0
4,1
963,9
782,1
1 345,2
3 319,1
906,0
1 465,2
550,7
2 252,5
1 839,4
3 099,5
7 297,7
2 226,0
3 675,8
1 252,4
220,5
342,4
173,2
290,2
414,2
568,7
65,3
15,1
13,0
19,4
29,7
14,9
15,5
8,2
4 600,9
2 794,7
5 003,5
14 610,0
2 178,6
2 802,1
1 197,5
9 540,3
5 621,6
9 764,5
28 589,4
4 759,4
5 914,5
2 514,9
Bibliographie
Ballin, M., et
Barcaroli, G. (2008). Optimal stratification of sampling frames in a
multivariate and multidomain sample design. Contributi
ISTAT, 10.
Bazaraa, M.S., Sherali, H.D. et Shetty, C.M. (2006). Nonlinear Programming: Theory and Algorithms.
New York : John Wiley & Sons, Inc, Third Edition.
Bethel, J.
(1985). An optimum allocation algorithm for multivariate surveys. Proceedings of the Survey Research
Methods Section, American Statistical Association, 209-212.
Bethel, J. (1989). Répartition de l’échantillon dans les enquêtes
à plusieurs variables. Techniques d’enquête, 15, 1, 49-60.
Chromy, J.
(1987). Design optimization with multiple objectives. Proceedings of the Survey Research
Methods Section, American Statistical Association, 194-199.
Cochran, W.G.
(1977). Sampling Techniques. Third
Edition-Wiley.
Day, C.D.
(2010). A multi-objective evolutionary algorithm for multivariate optimal
allocation. Proceedings
of the Survey Research Methods Section, American Statistical
Association.
Folks, J.L., et Antle, C.E. (1965). Optimum allocation of sampling units to
strata when there are R responses of interest. Journal of theAmerican
Statistical Association, 60 (309), 225-233.
García, J.A.D., et
Cortez, L.U. (2006). Optimum allocation in multivariate stratified sampling:
Multi-objective programming. Comunicaciones Del Cimat, no I-06-07/28-03-2006.
Huddleston,
H.F., Claypool, P.L. et Hocking, R.R. (1970). Optimal sample allocation to
strata using convex programming. Journal
of the Royal Statistical Society, Series C, 19 (3).
Ismail, M.V., Nasser, K. et Ahmad, Q.S. (2011). Solution of a multivariate stratified
sampling problem through Chebyshev’s Goal programming. Pakistan
Journal of Statistics and Operation Research, vol. vii, 1, 101-108.
Khan, M.G.M., et
Ahsan, M.J. (2003). A note on optimum allocation in multivariate stratified
sampling. The South Pacific Journal of Natural Science, 21, 91-95.
Khan, M.F., Ali,
I. et Ahmad, Q.S. (2011). Chebyshev approximate solution to allocation problem
in multiple objective surveys with random costs. American Journal of Computational Mathematics, 1, 247-251.
Khan, M.F., Ali,
I., Raghav, Y.S. et Bari, A. (2012). Allocation in multivariate stratified
surveys with non-linear random cost function. American Journal of Operations Research, 2, 100-105.
Kish, L. (1976).
Optima and proxima in linear sample designs. Journal of the Royal Statistical Society, Series A, 139 (1), 80-95.
Kokan, A.R.
(1963). Optimum allocation in multivariate surveys. Journal of the Royal Statistical Society, Series A, 126 (4), 557-565.
Kokan, A.R., et
Khan, S. (1967). Optimum allocation in multivariate surveys: An analytical
solution. Journal of the Royal
Statistical Society, Series B, 29
(1), 115-125.
Kozak, M.
(2006). Multivariate sample allocation: Application of random search method. Statistics in Transition, 7 (4),
889-900.
Land, A.H., et
Doig, A.G. (1960). An Automatic method for solving discrete programming
problems. Econometrica, 28 (3),
497-520.
Lohr, S.L. (2010). Sampling: Design and Analysis, Second
edition. Brooks/Cole, Cengage Learning.
Luenberger, D.G., et Ye, Y. (2008). Linear and Non-Linear Programming, Third Edition. Springer.
Särndal, C.-E.,
Swensson, B. et Wretman, J. (1992). Model
Assisted Survey Sampling. New York : Springer-Verlag.
Valliant, R., et Gentle, J.E. (1997). An application of mathematical programming to sample
allocation. Computational Statistics
& Data Analysis, 25, 337-360.
Wolsey, L.A. (1998).Integer Programming. Wiley-Interscience
Series in Discrete Mathematics and Optimization.
Wolsey, L.A., et
Nemhauser, G.L. (1999). Integer and Combinatorial Optimization.
Wiley-Interscience Series in Discrete Mathematics and Optimization.
Techniques d’enquête publie des articles sur les divers aspects des méthodes statistiques qui intéressent un organisme statistique comme, par exemple, les problèmes de conception découlant de contraintes d’ordre pratique, l’utilisation de différentes sources de données et de méthodes de collecte, les erreurs dans les enquêtes, l’évaluation des enquêtes, la recherche sur les méthodes d’enquête, l’analyse des séries chronologiques, la désaisonnalisation, les études démographiques, l’intégration de données statistiques, les méthodes d’estimation et d’analyse de données et le développement de systèmes généralisés. Une importance particulière est accordée à l’élaboration et à l’évaluation de méthodes qui ont été utilisées pour la collecte de données ou appliquées à des données réelles. Tous les articles seront soumis à une critique, mais les auteurs demeurent responsables du contenu de leur texte et les opinions émises dans la revue ne sont pas nécessairement celles du comité de rédaction ni de Statistique Canada.
Présentation de textes pour la revue
Techniques d’enquête est publiée en version électronique deux fois l’an. Les auteurs désirant faire paraître un article sont invités à le faire parvenir en français ou en anglais en format électronique et préférablement en Word au rédacteur en chef, (statcan.smj-rte.statcan@canada.ca, Statistique Canada, 150 Promenade du Pré Tunney, Ottawa, (Ontario), Canada, K1A 0T6). Pour les instructions sur le format, veuillez consulter les directives présentées dans la revue ou sur le site web (www.statcan.gc.ca/Techniquesdenquete).
Note de reconnaissance
Le succès du système statistique du Canada repose sur un partenariat bien établi entre Statistique Canada et la population, les entreprises, les administrations canadiennes et les autres organismes. Sans cette collaboration et cette bonne volonté, il serait impossible de produire des statistiques précises et actuelles.
Normes de service à la clientèle
Statistique Canada s'engage à fournir à ses clients des services rapides, fiables et courtois. À cet égard, notre organisme s'est doté de normes de service à la clientèle qui doivent être observées par les employés lorsqu'ils offrent des services à la clientèle.
Droit d'auteur
Publication autorisée par le ministre responsable de Statistique Canada.