1. Introduction

Piero Demetrio Falorsi et Paolo Righi

Précédent | Suivant

Les enquêtes menées dans le contexte de la statistique officielle produisent fréquemment un grand nombre d’estimations qui ont trait à différents paramètres d’intérêt ainsi qu’à des domaines d’estimation d’un niveau de détail très élevé. Lorsque des variables indicatrices de domaine sont disponibles pour chaque unité d’échantillonnage figurant dans la base de sondage, le concepteur du plan de sondage peut essayer de sélectionner un échantillon dans lequel la taille de chaque domaine est fixée. Dans ces conditions, il est possible d’obtenir des estimations directes pour chaque domaine et de contrôler les erreurs d’échantillonnage au niveau du domaine. Nous présentons ici un cadre unifié et général pour définir les probabilités d’inclusion optimales pour les plans d’échantillonnage à un degré lorsqu’on connaît les variables d’appartenance au domaine à l’étape de l’établissement du plan. Il pourrait s’agir du scénario le plus fréquent dans les enquêtes auprès des établissements et dans d’autres contextes d’enquête, comme les enquêtes agricoles ou les enquêtes sociales si les domaines sont de nature géographique (par exemple, type de municipalité, région, province, etc.). La progression croissante de l’intégration des données des registres administratifs et des bases de sondage pourrait aussi rendre l’approche présentée ici plus applicable aux enquêtes sociales. La proposition pourrait être utile pour la planification d’un sondage de deuxième phase optimal si l’on a recueilli les données sur les variables d’appartenance au domaine à la première phase.

Le problème de l’établissement de plans de sondage optimaux a été abordé dans certains articles récents. Gonzalez et Eltinge (2010) donnent un aperçu intéressant des approches en vue de définir des stratégies d’échantillonnage optimales. Le problème d’optimisation est habituellement traité dans le contexte de l’échantillonnage stratifié avec taille d’échantillon fixe dans chaque strate. La répartition optimale sous échantillonnage stratifié pour une population univariée est bien décrite dans la littérature sur l’échantillonnage (Cochran 1977). Dans les cas multivariés, où plus d’une caractéristiques doivent être mesurées sur chaque unité échantillonnée, la répartition optimale pour les caractéristiques individuelles est de peu d’intérêt pratique, à moins que les diverses caractéristiques étudiées soient fortement corrélées. Il en est ainsi parce qu’une répartition optimale pour une caractéristique est généralement loin de l’être pour les autres. La multidimensionalité du problème mène à la définition d’une méthode de répartition de compromis (Khan, Mati et Ahsan 2010) associée à une perte de précision comparativement aux répartitions optimales individuelles. Plusieurs auteurs ont discuté de divers critères permettant d’obtenir une répartition de compromis réalisable – voir, par exemple, Kokan et Khan (1967), Chromy (1987), Bethel (1989), Falorsi et Righi (2008), Falorsi, Orsini et Righi (2006) et Choudhry, Rao et Hidiroglou (2012).

Récemment, certains articles ont porté sur la recherche des probabilités d’inclusion optimales sous échantillonnage équilibré (Tillé et Favre 2005; Chauvet, Bonnéry et Deville 2011), une classe générale de plans d’échantillonnage qui inclut les plans d’échantillonnage stratifiés comme cas particuliers. Plus précisément, Chauvet et coll. (2011) proposent l’adoption de l’algorithme du point fixe pour définir les probabilités d’inclusion optimales. Néanmoins, les articles susmentionnés n’abordent pas le cas où les variables d’équilibrage dépendent des probabilités d’inclusion et ne présentent qu’une solution partielle au problème dû au fait que la variance d’échantillonnage est une fonction implicite des probabilités d’inclusion. Choudhry et coll. (2012) propose un algorithme de répartition optimale pour les estimations de domaine sous échantillonnage stratifié (si les domaines d’estimation ne recoupent pas les strates). Leur algorithme représente un cas particulier de l’approche que nous proposons. Les conditions méthodologiques illustrées ici représentent une amélioration considérable par rapport à la version antérieure de la méthodologie décrite dans Falorsi et Righi (2008) qui ne tenait compte que du cas où les valeurs des variables d’intérêt étaient connues et où la mesure de la précision était exprimée par la variance sous le plan; en outre, la version antérieure ne tenait pas compte du fait que la variance sous le plan, bornée dans le problème d’optimisation, est une fonction implicite des probabilités d’inclusion. Le présent article porte sur le cas plus réaliste où les variables d’intérêt ne sont pas connues et doivent être estimées. En outre, il traite explicitement le problème découlant du fait que les variances anticipées sont des fonctions implicites des probabilités d’inclusion. Le nouvel algorithme d’optimisation peut être exécuté facilement, parce qu’il est fondé sur une décomposition générale de la mesure de la précision. Nous proposons un plan d’échantillonnage général qui englobe la plupart des plans d’échantillonnage à un degré adoptés dans les enquêtes réelles, par exemple l’échantillonnage aléatoire simple sans remise (EASSR), l’EASSR stratifié, l’échantillonnage PPT stratifié, les plans avec stratification incomplète, etc. Le cadre est fondé sur l’utilisation conjointe de plans d’échantillonnage équilibrés (Deville et Tillé 2004) qui, suivant les différentes définitions des équations d’équilibrage, représentent une vaste gamme de plans d’échantillonnage et de modèles de superpopulation pour la prédiction des valeurs inconnues des variables d’intérêt. La présentation de l’article est la suivante. À la section 2, nous exposons les définitions et la notation. À la section 3 et à la section 4, nous illustrons le plan d’échantillonnage et la variance anticipée. À la section 5, nous décrivons l’algorithme utilisé pour définir les probabilités d’inclusion optimales. À la section 6, nous illustrons les propriétés empiriques de l’algorithme au moyen de certaines expériences fondées sur des données réelles sur les entreprises. Enfin, à la section 7, nous présentons les conclusions.

Précédent | Suivant

Date de modification :