Plan d'échantillonnage

Portée et objet
Principes
Lignes directrices
Indicateurs de qualité
Bibliographie

Portée et objet

L'échantillonnage est un moyen de sélectionner un sous-ensemble d'unités d'une population cible dans le but de recueillir des renseignements. Ces renseignements sont utilisés pour tirer des conclusions au sujet de la population en général. Le sous-ensemble d'unités sélectionnées à l'échantillonnage est appelé échantillon. Le plan d'échantillonnage englobe tout ce qui concerne la manière de regrouper les unités dans la base, de déterminer la taille de l'échantillon, de répartir l'échantillon dans les diverses classifications des sous-sections de la base de sondage et de sélectionner l'échantillon. Les choix relatifs au plan d'échantillonnage sont influencés par de nombreux facteurs comme le degré de précision et de détail visé pour les informations à livrer, l'existence de bases de sondage appropriées, la disponibilité de variables auxiliaires permettant la stratification et la sélection de l'échantillon, les méthodes d'estimation qui seront appliquées et le budget alloué, du point de vue du « temps » et des « ressources ».

Principes

Il existe deux types d'échantillonnage : l'échantillonnage non probabiliste et l'échantillonnage probabiliste. L'échantillonnage non probabiliste repose sur la sélection subjective d'unités au sein d'une population. Il est généralement rapide, simple et abordable. Étant donné ses caractéristiques, ce type d'échantillonnage est parfois utile pour mener des études préliminaires, tenir des groupes de discussion et faire des études de suivi. Or, pour pouvoir tirer des conclusions sur la population entière, il n'en demeure pas moins qu'il faut supposer, souvent à tort, que l'échantillon est représentatif. L'échantillonnage probabiliste repose quant à lui sur trois principes généraux qui tracent les limites de son cadre statistique. Le premier principe est la randomisation, soit la sélection aléatoire des unités de l'échantillon. Selon le second principe, toutes les unités de la population observée ont une probabilité positive connue d'être sélectionnées dans l'échantillon. Le troisième est le calcul de cette probabilité, qui permet ensuite d'établir des estimations générales et des estimations de l'erreur d'échantillonnage. L'échantillonnage probabiliste reste le meilleur choix, pour la plupart des programmes statistiques, car il permet de tirer des conclusions fiables sur l'ensemble de la population et de quantifier l'erreur dans les estimations.

Le plan d'échantillonnage devrait être aussi simple que possible. Il a pour objectif de livrer des estimations exactes et suffisamment précises pour répondre aux exigences de l'enquête. La précision d'une estimation est mesurée selon sa variance. Le manque d'exactitude est révélé par les biais, qui sont souvent attribuables à des facteurs indépendants de l'échantillonnage, comme les erreurs de déclaration et de mesure, l'inexactitude du traitement, ainsi que les erreurs liées à la non-réponse et aux déclarations incomplètes.

Lignes directrices

Plan

  • Pour déterminer la taille d'un échantillon, il faut tenir compte des niveaux de précision nécessaires à la production des estimations de l'enquête, du type de plan (p. ex., échantillonnage en grappes, stratification) et d'estimateur utilisés, de l'accessibilité des informations auxiliaires et des coordonnées des personnes-ressources, des contraintes budgétaires, ainsi que de certains facteurs, comme la nonréponse, la présence d'unités hors champ, l'attrition dans les enquêtes longitudinales, etc. Pour les enquêtes périodiques, il faut tenir compte des additions et des suppressions d'unités prévisibles dans la population observée, qui est en constante évolution. Il importe de souligner que la précision des estimations d'une enquête tient généralement davantage à la taille de l'échantillon total qu'au taux d'échantillonnage (ratio de la taille de l'échantillon par rapport à la taille de la population).
  • Il faut se rappeler que la plupart des enquêtes génèrent des estimations pour plusieurs variables et que le fait d'optimiser l'échantillon pour une variable en particulier peut avoir des effets négatifs sur d'autres variables importantes. Il faut gérer ce problème en déterminant d'abord les variables les plus importantes; on obtient alors un sous-ensemble de variables permettant de déterminer quelle stratégie adopter pour l'échantillonnage. Cette stratégie sous-tend souvent un compromis entre les stratégies optimales s'appliquant à chacune des variables de ce sous-ensemble. Consulter Bethel (1989).
  • La stratification consiste à diviser la population en sous-ensembles qui sont appelés strates. Chaque strate fournit un échantillon indépendant. Le choix des strates est dicté par les objectifs de l'enquête, la disponibilité des variables de la base de sondage, la distribution de la variable d'intérêt et le niveau de précision visé pour les estimations. La majorité des enquêtes produisent des estimations sur divers domaines d'intérêt (p. ex., les provinces). Il faut en tenir compte dans le plan de l'enquête – si possible –  en stratifiant la population de manière appropriée (p. ex., par province). Si tel n'est pas le cas, il faudra envisager de recourir à des méthodes spéciales, à l'étape de l'estimation, pour produire les estimations de ces domaines (voir Imputation). Afin d'être efficace sur le plan statistique, il importe de s'assurer que chacune des strates contienne des unités aussi homogènes que possible par rapport aux informations recueillies par l'enquête. Pour les enquêtes longitudinales, choisir des variables de stratification qui correspondent à des caractéristiques reconnues pour leur stabilité au fil du temps.
  • Mener des études pour évaluer plusieurs options par rapport aux méthodes d'échantillonnage, à la stratification et à la répartition. L'utilité de ces études dépend de la disponibilité et de l'actualité des données qui les alimentent – qu'il s'agisse de données administratives, d'enquêtes ou de recensements antérieurs – et de la relation qu'entretiennent ces dernières avec les variables importantes de l'enquête. Consulter Kish (1988).
  • Déterminer le taux de réponse attendu au moyen d'un prétest ou de données tirées d'éditions précédentes de la même enquête ou d'enquêtes similaires. Ce taux peut servir à déterminer la taille de l'échantillon. L'échantillon peut être divisé en vagues successives qui seront relâchées au besoin selon la taille de l'échantillon obtenu par strate. Pour les enquêtes longitudinales, il faut utiliser l'attrition cumulée prévue pour un nombre de cycles donné.

Méthodes

  • Pour les populations qui sont hautement asymétriques, il faut créer une strate de grandes unités dont l'inclusion dans l'enquête est certaine (la strate à tirage complet). En général, ces grandes unités représenteront une part substantielle des totaux de population. Afin de réduire le fardeau du répondant, il se peut qu'il faille créer une strate de très petites unités à exclure de la population observée. Consulter Baillargeon et coll. (2007). Il importe de bien distinguer la portion non sondée de la population observée (strate à tirage nul), qui appartient à la population observée sans toutefois faire partie de l'échantillon, et les unités hors du champ de l'enquête, qui n'appartiennent pas à la population observée. La contribution de la strate à tirage nul peut être estimée au moyen de modèles.
  • Il arrive que l'information nécessaire à la stratification de la population ne soit pas accessible dans la base de sondage. Lorsque c'est le cas, on peut se servir d'un plan d'échantillonnage à deux phases (ou double), qui sélectionne un grand échantillon lors de sa première phase, pour obtenir les informations nécessaires à la stratification. Ce premier échantillon est ensuite stratifié. Pendant la seconde phase, on retient un sous-échantillon pour chacune des strates du premier échantillon. Il importe de se questionner sur le coût de l'échantillonnage pour chaque phase, sur la disponibilité de l'information requise par chaque phase et sur les gains associés à la stratification de l'échantillon de première phase, pour ce qui est de la précision.
  • Dans la pratique, il n'est pas toujours possible de sélectionner directement les unités qui fourniront les renseignements nécessaires ou de communiquer directement avec elles. Il arrive que la démarche ne soit pas rentable ou qu'on ne dispose pas d'informations suffisantes pour la mener à bien. En pareil cas, on peut se servir d'un plan d'échantillonnage à deux degrés : on sélectionne d'abord des grappes (appelées les unités primaires d'échantillonnage) d'unités déclarantes, puis un échantillon d'unités déclarantes à l'intérieur de chaque grappe sélectionnée. Il est possible que des contraintes budgétaires ou d'une autre nature nécessitent plus de deux degrés (un plan à plusieurs degrés). Pour l'échantillonnage, déterminer le nombre d'étapes nécessaires et le type d'unité approprié, et ce, à chaque étape. Pour chaque type d'unité, vérifier les éléments suivants : disponibilité d'une base d'unités adéquate – ou possibilité d'en créer une – à chaque étape, facilité de la prise de contact et de la collecte/mesure des données, qualité des données fournies par l'unité et coût de la collecte. Les plans à plusieurs degrés sont, par définition, des plans d'échantillonnage par grappes. Bien qu'elles réduisent le coût de la collecte de données, les grappes peuvent accroître les variances attribuables à la corrélation intragrappe.
  • Si les échantillons sont sélectionnés dans diverses bases (deux ou plus), il faut se montrer prudent avec les unités appartenant  à plus d'une base. Il faut savoir à quelle base chacune de ces unités appartient. Par ailleurs, il faut privilégier des plans d'échantillonnage qui simplifient les procédures d'estimation. Le principe selon lequel le plan doit rester simple est d'autant plus vrai lorsqu'on a recourt à de multiples bases.
  • Lorsque la répartition et la taille des échantillons stratifiés sont déterminées, il faut tenir compte des taux de classification erronée prévus dans les unités et de toute autre lacune de la base, sans quoi les estimations de l'enquête seront moins précises que prévu. Il faudra donc s'attaquer à ce problème à l'étape de l'estimation (voir la section 2.10).
  • Certains plans d'échantillonnage complexes demandent de calculer un effet de plan de sondage (EPS) pour déterminer la taille de l'échantillon. Pour calculer l'EPS d'une enquête, il faut se servir de résultats d'enquêtes antérieures ou d'enquêtes similaires. Consulter Gambino (2001), Kish (1965) et Gabler et coll. (2006).
  • Certaines situations plus complexes – étude de populations rares ou mobiles, échantillonnage à partir d'une liste d'unités qui sont liées aux unités de la population visée, sans pour autant y correspondre directement – peuvent requérir un plan particulier. Il peut s'agir de recourir à certaines techniques comme l'échantillonnage indirect, le sondage par réseaux ou l'échantillonnage par grappes adapté, pour ne nommer que celles-là. Consulter Lavallée (2007) et Thompson et Seber (1996).
  • La méthode de composition aléatoire (CA) est très populaire dans certains types d'enquêtes-ménage. Les plans qui recourent à la CA comportent des risques de biais, car ce ne sont pas tous les ménages qui ont des téléphones conventionnels (à fil). Étant donné la prévalence croissante du nombre de ménages ayant uniquement des téléphones cellulaires, le problème va même s'aggraver, sauf si la CA est appliquée aux numéros de téléphone cellulaire. Avant de choisir la méthode du CA pour une enquête, il faut donc mesurer avec soin les risques de biais.

Enquêtes périodiques

  • Pour les enquêtes périodiques fondées sur un plan d'échantillonnage où la taille d'échantillon augmente en même temps que la population, il est souvent nécessaire de développer une méthode pour stabiliser la taille de l'échantillon et, par le fait même, les coûts de collecte. Il peut s'agir, par exemple, de la suppression aléatoire, qui permet de stabiliser la taille de l'échantillon, au fil du temps.
  • S'assurer que le plan des enquêtes périodiques soit aussi souple que possible, pour pouvoir faire face aux changements futurs, comme l'augmentation ou la réduction de la taille de l'échantillon, la restratification, le rééchantillonnage et l'actualisation des probabilités de sélection. Si des estimations sont requises pour des domaines précis (p. ex., estimations infraprovinciales), former les strates nécessaires à ce calcul en combinant de petites unités stables liées aux domaines concernés (p. ex., petites régions géographiques), si possible. Il sera plus facile, ainsi, de s'adapter à d'éventuels changements dans la définition des strates.
  • Si des estimations efficientes du changement sont requises ou si le fardeau de réponse pose problème dans le cadre d'enquêtes périodiques, utiliser un plan d'échantillonnage avec rotation, qui remplace une partie de l'échantillon à chaque période. Le choix du taux de rotation visera le juste équilibre entre la précision nécessaire à l'estimation du changement et le fardeau de réponse des unités déclarantes. Un faible taux de rotation augmente la précision des estimations du changement, bien qu'il risque de diminuer le taux de réponse, au fil du temps, étant donné qu'il accroît le fardeau de réponse. Il a aussi l'avantage de réduire les coûts, lorsque le premier contact est beaucoup plus coûteux que les contacts subséquents.
  • Élaborer des procédures visant à surveiller la qualité du plan d'échantillonnage au fil du temps. Mettre en place une stratégie d'actualisation pour le remaniement sélectif des strates gravement altérées par des fluctuations de croissance.

Enquêtes longitudinales

  • Pour les enquêtes longitudinales par panel, déterminer la durée du panel (sa durée dans l'échantillon) en tentant de maintenir un juste équilibre entre la satisfaction des besoins de l'enquête (données relatives à la durée), d'une part, et les effets d'attrition et de conditionnement de l'échantillon, d'autre part. Adopter un plan par panels chevauchants (c. à-d. chevauchement temporel) lorsqu'il faut produire des estimations transversales parallèlement aux estimations longitudinales.
  • Il importe grandement de choisir un plan d'échantillonnage dont les caractéristiques sont simples (c.-à-d. base de sondage unique, réduction du nombre de degrés et de phases au minimum), car les procédures d'estimation deviennent extrêmement complexes avec l'augmentation du nombre de vagues.
  • Il est recommandé de réserver – principalement – les enquêtes longitudinales à la production d'estimations longitudinales. En tentant de satisfaire à la fois des exigences transversales et longitudinales, on risque de développer un plan et des procédures d'estimation très complexes. S'il faut obtenir des estimations transversales, il est préférable de se servir d'un échantillon « complémentaire » pour tenir compte des naissances et des nouveaux immigrants.

Mise en œuvre

  • À l'étape de la mise en œuvre, comparer l'échantillon réel, du point de vue de la taille et des caractéristiques, à l'échantillon attendu. Comparer la précision des estimations aux objectifs sur ce plan. Réévaluer les hypothèses formulées pendant la conception du plan. Par exemple, évaluer la non-réponse (contacts échoués, refus, etc.) et calculer les effets de plan de sondage.
  • Préférer les logiciels de sélection d'échantillon généralisés aux systèmes personnalisés. Il peut s'agir du Système généralisé d'échantillonnage (SGECH) mis au point par Statistique Canada. Le SGECH s'avère très utile pour gérer la sélection et la rotation des échantillons, dans le cadre des enquêtes périodiques. En recourant aux systèmes généralisés, on peut s'attendre à réduire les erreurs de programmation et, dans une certaine mesure, les coûts et la durée du développement.

Documentation

  • Préparer des documents détaillés et exhaustifs pour chaque aspect du plan d'échantillonnage. Ces documents vont répondre, notamment, aux questions suivantes : quelles bases ont été retenues et pourquoi, comment les unités ont-elles été formées et stratifiées, comment la taille de l'échantillon a-t-elle été déterminée, comment les degrés ou les phases ont-ils été choisis, quels plans de sondage ont été retenus et pourquoi, etc.

Indicateurs de qualité

Principal élément de la qualité : exactitude

En plus de tenir compte des éléments suivants, le lecteur devrait consulter la Politique visant à informer les utilisateurs sur la qualité des données et la méthodologie de Statistique Canada, qui contient des renseignements pertinents, surtout au paragraphe 2.3 de la section E.1.

  • Fournir des mesures de la représentativité de l'échantillon : surdénombrement et sous-dénombrement, exclusions, comparaisons avec des sources externes (p. ex., comparer des totaux démographiques externes à ceux obtenus dans le cadre de l'enquête).

  • Comparer la taille de l'échantillon observé et celle de l'échantillon prévu. Cette comparaison est d'autant plus importante, pour les enquêtes à plusieurs degrés, car il peut s'avérer difficile, pour les degrés supérieurs à un, de prévoir avec précision la taille de l'échantillon.

  • Comparer les taux de réponse, les taux d'attrition et les taux d'unités hors champ à ceux prévus lors de la planification.

  • Fournir des mesures de l'erreur d'échantillonnage : produire des variances ou des coefficients de variation (c.v.) et les comparer aux valeurs prévues lors de la planification. Si l'on a recouru à des effets de plan, lors de la planification, il faut les comparer aux effets de plan réels.

  • Comparer les c.v. réels des variables employées pour stratifier la base ou répartir l'échantillon aux valeurs cibles établies lors de la conception.

  • Si possible, comparer l'homogénéité des strates à celle affichée au moment de leur création. Dans le cas des enquêtes répétées, étudier la détérioration des strates, au fil du temps. Mesurer la fréquence des unités migrantes et des erreurs de classification.

Bibliographie

BETHEL, J. 1989. « Sample Allocation in Multivariate Surveys », Survey Methodology, vol. 15, no1, p. 47 à 57.

COCHRAN, W.G. 1977. Sampling Techniques, New York, Wiley, 428 p.

GAMBINO, J. 2001. « Design Effect Caveats », Statistique Canada. Document interne.

GABLER, S., S. HADER et P. LYNN. 2006. « Design Effects for Multiple Design Samples », Survey Methodology, vol. 2, no1, p. 115 à 120.

HIRIDIGLOU, M.A. 1994. « Sampling and Estimation for Establishment Surveys: Stumbling Blocks and Progress », Proceedings of the Section on Survey Research Methods, American Statistical Association, p. 153 à 162.

HIRIDIGLOU, M.A. et K.P. SRINATH. 1993. « Problems Associated with Designing Sub-annual Business Surveys », Journal of Business and Economic Statistics, no11, p. 397 à 405.

KALTON, G. et C.F. CITRO. 1993. « Panel Surveys: Adding the Fourth Dimension », Survey Methodology, vol. 19, no2, p. 205 à 215.

KISH, L. 1965. Survey Sampling, New York, Wiley, 664 p.

KISH, L. 1988. « Multi-purpose Sample Designs », Survey Methodology, vol. 14, no1, p. 19 à 32.

LAVALÉE, P. 2007. Indirect Sampling, New York, Springer, 256 p.

LOHR, S. 1999. Sampling. Design and Analysis, Californie, Duxbury Press, 512 p.

SARNDAL, C. E., B. SWENSONN et J. WRETMAN. 1992. Model Assisted Survey Sampling, New York, Springer-Verlag, 694 p.

STATISTIQUE CANADA. 2008. Méthodologie de l'Enquête sur la population active du Canada, publication no71-526-X au catalogue de Statistique Canada, Ottawa, 116 p.

STATISTIQUE CANADA. 2003. Méthodes et pratiques d'enquête, publication no12-587-X au catalogue de Statistique Canada, Ottawa, 396 p.

THOMPSON, S.K. et G.A. SEBER. 1996. Adaptive Sampling, New York, John Wiley and Sons, 288 p.

TILLÉ, Y. 2001. Théorie des sondages – Échantillonnage et estimation en populations finies, Paris, Dunod.