1. Introduction

David G. Steel et Robert Graham Clark

Précédent | Suivant

De simples modèles de coût linéaires ont été utilisés pour tenir compte de l’inégalité des coûts par unité dans les plans de sondage. Sous échantillonnage stratifié, il est parfois possible d’estimer un coefficient de coût par unité pour chaque strate. La répartition résultante de l’échantillon entre les strates est proportionnelle à l’inverse de la racine carrée des coûts par strate (Cochran 1977). Dans un plan de sondage à plusieurs degrés, les coûts d’inclusion des unités aux différents degrés de sélection peuvent être utilisés pour décider du nombre d’unités qu’il convient de sélectionner à chaque degré (Hansen, Hurwitz et Madow 1953).

Même si cette théorie est bien établie, l’utilisation de coûts inégaux n’est pas très répandue en pratique (Brewer et Gregoire 2009), peut-être à cause d’un manque d’information sur les coûts, et parce qu’une plus grande attention est accordée à la taille d’échantillon qu’au coût de dénombrement. Groves (1989) soutient que les modèles de coût linéaires sont irréalistes et que la modélisation mathématique des coûts peut faire oublier des décisions plus importantes, comme le choix du mode de collecte, du nombre d’appels de suivi et de la façon dont l’enquête interagit avec d’autres enquêtes que réalise l’organisme. Néanmoins, étant donné les pressions exercées sur les budgets d’enquête, il faut veiller à ce que le plan de sondage final reflète les coûts et la variance de manière rationnelle, sans être obnubilé par une optimalité formelle.

L’usage croissant d’ordinateurs pour la collecte des données permet de recueillir des renseignements sur les coûts plus nombreux et plus utiles pour les unités qui figurent dans les bases de sondage. Dans un programme d’enquêtes-entreprises mené par un institut national de statistique, la plupart des moyennes et grandes entreprises sont sélectionnées au moins tous les ans ou tous les deux ans pour participer à certaines enquêtes. Cela peut fournir des renseignements sur les coûts pour ces entreprises; par exemple, certaines d’entre elles peuvent avoir nécessité un suivi ou une vérification de grande portée lors d’une enquête antérieure. Des données directes sont moins susceptibles d’être disponibles pour les petites entreprises, mais des jeux de données sur les coûts pourraient être modélisés pour prédire les coûts probables.

Les plans de collecte de données adaptatifs ou dynamiques s’appuient sur les paradonnées (données sur les processus) recueillies durant une opération d’enquête et sur des données auxiliaires (provenant habituellement de sources administratives) pour créer la base de sondage, afin d’orienter les décisions courantes. Ces décisions peuvent porter sur le nombre de rappels, les répondants auprès desquels il faut effectuer un suivi, le ciblage des primes d’incitation, et le choix du mode de collecte pour les appels de suivi (Groves et Heeringa 2006). Dans un exemple discuté par Groves et Heeringa (2006), les intervieweurs ont classé les non-répondants comme ayant une faible ou une forte propension à répondre. La conversion en répondant étant moins coûteuse pour les membres de la seconde catégorie, une fraction d’échantillonnage plus élevée leur a été attribuée dans une deuxième phase de l’enquête. Plus récemment, Schouten, Bethlehem, Beullens, Kleven, Loosveldt, Luiten, Rutar, Shlomo et Skinner (2012, section 6) ont proposé de concevoir le suivi à la deuxième phase d’une enquête de manière à améliorer l’indicateur R de biais de non-réponse (défini dans Schouten, Cobben et Bethlehem 2009, ainsi que dans Schouten Shlomo et Skinner 2011). Peytchev, Riley, Rosen, Murphy et Lindblad (2010) soutiennent que les non-répondants probables devraient faire l’objet d’un protocole différent dès le début d’une enquête.

Donc, il existe en pratique des coûts par unité inégaux pour l’ensemble des unités avant l’échantillonnage, ou pour les non-répondants ciblés pour le suivi. Dans l’un et l’autre cas, la collecte et l’utilisation d’information sur les coûts entraînent une certaine dépense et une plus grande complexité. En outre, trouver un compromis efficace entre le coût et la variance ne représente qu’une partie du problème, car le biais de réponse doit également être pris en considération. Il est donc important de savoir si les avantages éventuels de l’utilisation de cette information en valent la peine, compte tenu surtout du fait que toute donnée sur les coûts est vraisemblablement imparfaite.

Le présent article décrit l’élaboration d’approximations relativement simples des gains d’efficacité découlant de l’utilisation d’information sur les coûts au niveau de l’unité dans un cadre assisté par modèle. La section 2 donne la notation et certaines expressions importantes. La section 3 traite du plan optimal lorsque les paramètres de coût sont connus. La section 4 offre une analyse de l’utilisation des coûts par unité estimés, et la section 5 présente des exemples. La section 6 offre une discussion.

Précédent | Suivant

Date de modification :