1 Introduction

Marco Ballin et Giulio Barcaroli

Précédent | Suivant

L'optimalité d'un échantillon peut être définie en fonction des coûts (associés au travail sur le terrain, en particulier au nombre d'unités à interviewer) et de la précision (reliée à la variance d'échantillonnage des estimations cibles). Les plans d'échantillonnage stratifiés sont des plans d'usage très répandu qui permettent de  réduire les coûts et d'augmenter la précision des estimations lorsque des variables de stratification sont disponibles dans la base de sondage.

De nombreuses études traitant de l'optimisation des plans d'échantillonnage stratifiés ont été publiées. Nous pouvons les classer comme suit selon l'objet de l'optimisation :

  1. la répartition de l'échantillon doit être optimisée, tandis que la stratification est considérée comme telle;
  2. la stratification doit être optimisée, tandis que la question de la répartition de l'échantillon est reportée à une étape ultérieure;
  3. la stratification et la répartition de l'échantillon sont optimisées en une seule étape.

Dans le premier groupe, nous pouvons inclure Cochran (1977), Bethel (1985, 1989), Chromy (1987), Huddleston, Claypool et Hocking (1970), Kish (1976), Stokes et Plummer (2004), Day (2006, 2010), Díaz-García et Cortez (2008), Kozak, Zieliński et Singh (2008), Khan, Maiti et Ahsan (2010), Kozak et Wang (2010). Bethel (1985, 1989) et Chromy (1987) proposent des algorithmes similaires pour l'extension de la répartition de Neyman au cas multivarié en utilisant des méthodes de programmation convexes. Stokes et Plummer (2004) montrent comment utiliser l'outil de programmation non linéaire disponible dans les chiffriers Excel pour résoudre le même problème. Dans Day (2006, 2010), l'approche de l'algorithme évolutionnaire est proposée pour résoudre le problème de répartition multivariée de l'échantillon sous les mêmes conditions que celles indiquées par Bethel et Chromy. Dans Díaz-García et Cortez (2008), le problème de la répartition multivariée optimale de l'échantillon est résolu sous forme d'un problème d'optimisation multi-objectifs de nombres entiers. Kozak et coll. (2008) étudient le cas de l'échantillonnage stratifié à deux degrés.

Dans le deuxième groupe, nous pouvons considérer Dalenius et Hodges (1959), Singh (1971), Hidiroglou (1986), Lavallée et Hidiroglou (1988), Gunning et Horgan (2004), et Khan, Nand et Ahmad (2008). En général, le problème traité se rapporte à l'optimisation de la stratification que l'on peut obtenir en fonction d'une ou de plusieurs variables continues, corrélées à une ou à plusieurs variables cibles.

Un certain nombre d'articles décrivent le traitement simultané des deux problèmes (stratification et répartition de l'échantillon). Kozak, Verma et Zieliński (2007) proposent une méthode en vue d'obtenir une stratification multivariée tout en minimisant la taille globale de l'échantillon. La méthode est définie uniquement sur une base théorique, et les auteurs affirment que, dans le cas univarié, l'optimisation n'est pas difficile, tandis que dans le cas multivarié, les recherches doivent se poursuivre. Keskintürk et Er (2007) utilisent l'algorithme génétique pour résoudre simultanément les problèmes de répartition de l'échantillon et de détermination des limites des strates dans le cas d'une seule variable de stratification continue en considérant le nombre de strates et la taille totale de l'échantillon comme pré-déterminés. La proposition de Benedetti, Espa et Lafratta (2008) est fondée sur l'utilisation d'une approche arborescente : leur procédure définit un chemin allant de la stratification nulle vers la stratification dite atomique (caractérisée par le nombre maximal de strates obtenu en utilisant toutes les variables auxiliaires, avec les classifications les plus détaillées), généralement sans l'atteindre, étant donné qu'un nombre de règles d'arrêt sont appliquées. Baillargeon et Rivest (2009, 2011) proposent une méthode qui permet d'optimiser conjointement les limites de strate et la taille de l'échantillon en utilisant un algorithme itératif : les limites de strate (reliées à une seule variable de stratification) sont obtenues en minimisant la taille attendue d'échantillon pour estimer le total de population d'une seule variable étudiée (de sorte que cette approche est univariée en ce qui concerne tant la stratification que les variables cibles). En conclusion, la plupart des contributions de ce groupe sont consacrées à la résolution du problème consistant à trouver les meilleures limites de strate pour une seule variable auxiliaire continue; seuls Benedetti et coll. (2008) traitent le cas de la stratification multivariée.

Dans le cas de variables de stratification catégoriques, nous pourrions considérer la stratification donnée par leur produit cartésien; mais, si le nombre de strates créées est grand, on pourrait aboutir à une taille d'échantillon énorme, dépassant de loin celle qui est abordable ou nécessaire pour être certain d'obtenir les niveaux de précision requis. Donc, une tâche cruciale consiste à choisir le « meilleur » produit croisé de variables auxiliaires, c.-à-d. la meilleure partition de la base de sondage qui n'entraîne pas simultanément une explosion du nombre de strates.

Le présent article propose une solution au problème de détermination conjointe de la stratification optimale d'une base de sondage, et de la taille et de la répartition optimales de l'échantillon dans des conditions entièrement multivariées (c.-à-d. en ce qui concerne tant les variables de stratification que les variables cibles). La seule restriction a trait à la nature des variables de stratification qui doivent être catégoriques (mais nous donnons des renseignements sur un moyen approprié de transformer les variables continues en variables catégoriques). La solution proposée est fondée sur l'utilisation de l'algorithme génétique. La procédure générale a été implémentée dans un module R, nommé SamplingStrata, disponible dans le CRAN (Barcaroli, Pagliuca et Willighagen 2013a). Ce module fait appel à une version modifiée de certaines fonctions d'un autre module de R, genalg (Willighagen 2012).

La présentation de l'article est la suivante : la section 2 contient une formalisation du problème d'optimisation. La section 3 décrit en détails l'utilisation de  l'algorithme génétique afin de résoudre de manière optimale le problème de la recherche de la meilleure stratification donnant l'échantillon requis dont le coût est minimal. Pour mieux illustrer la méthode, la section 4 donne un exemple basé sur un jeu de données bien connu (les données sur les « fleurs d'iris »). La section 5 décrit la présentation et l'analyse des résultats de l'application de l'algorithme à une enquête réelle, l'Enquête italienne sur la structure des exploitations agricoles, et les compare à la solution pratique adoptée par les statisticiens d'enquête. Une autre application, à l'Enquête mensuelle sur le lait et les produits laitiers, est présentée à la section 6. Les conclusions finales sont exposées à la section 7.

Précédent | Suivant

Date de modification :