3.2 Échantillonnage
3.2.2 Échantillonnage probabiliste

Début du texte

L’échantillonnage probabiliste fait référence à la sélection d’un échantillon d’une population lorsque cette sélection repose sur le principe de la randomisation, c’est-à-dire la sélection au hasard ou aléatoire. Il est plus complexe, plus long à mettre en œuvre et habituellement plus dispendieux que l’échantillonnage non probabiliste. Toutefois, comme les unités de la population sont sélectionnées au hasard et qu’il est possible de calculer la probabilité de sélection de chaque unité dans l’échantillon, il permet de produire des estimations fiables et de faire des inférences statistiques au sujet de la population.

Il existe plusieurs méthodes d’échantillonnage probabiliste. Le choix d’un type d’échantillonnage repose sur plusieurs facteurs comme la précision des estimations désirée, la nature de la population d’intérêt, l’information connue sur cette population de même que des contraintes opérationnelles. Certaines contraintes opérationnelles peuvent aussi influencer ce choix, comme les caractéristiques de la base de sondage.

Dans cette section, les méthodes d’échantillonnage probabiliste seront décrites brièvement et illustrées à l’aide d’exemples.

Échantillonnage aléatoire simple

Dans un échantillonnage aléatoire simple (EAS), chaque unité d’échantillonnage de la population a une chance égale d’être incluse dans l’échantillon. Par conséquent, chaque échantillon possible a aussi une chance égale d’être sélectionné. Pour mettre cette technique en œuvre, il faut d’abord dresser une liste de toutes les unités de la population observée.

Exemple n° 1

Pour prélever un échantillon aléatoire simple d’un annuaire téléphonique, il faudrait numéroter en ordre séquentiel chaque entrée ou inscription. S’il y avait 10 000 entrées dans l’annuaire téléphonique et si la taille de l’échantillon était de 2 000 numéros, un ordinateur devrait alors générer au hasard 2 000 numéros entre 1 et 10 000. Tous les numéros auraient la même chance d’être générés par l’ordinateur. Les 2 000 entrées de l’annuaire téléphonique correspondant aux 2 000 numéros aléatoires générés par l’ordinateur composeraient l’échantillon.

Un EAS peut être effectué avec ou sans remplacement. Un EAS avec remplacement signifierait qu’il est possible que l’entrée échantillonnée dans l’annuaire téléphonique soit sélectionnée deux fois ou plus. Habituellement, l’EAS est effectué sans remplacement parce qu’il est plus pratique et donne des résultats plus précis. Dans le reste du texte, le terme EAS sera utilisé pour faire référence à l’EAS sans remplacement, à moins d’indication contraire.

L’EAS est la méthode d’échantillonnage la plus couramment utilisée. L’avantage de cette technique tient au fait qu’elle n’exige pas d’autres données dans la base de sondage que la liste complète des membres de la population observée et l’information pour les contacter. De plus, puisque l’EAS est une méthode simple et que la théorie qui la sous-tend est bien établie, il existe des formules types pour déterminer la taille de l’échantillon, les estimations, etc., et ces formules sont faciles à utiliser.

Cependant, l’EAS nécessite une liste de toutes les unités de la population. Si cette liste n’existe pas déjà, il peut être trop dispendieux ou même irréaliste d’en créer une pour de grandes populations. Si une base de sondage est disponible et que cette base contient des informations auxiliaires, l’EAS ne permet pas de tirer parti de ces informations qui peuvent rendre d’autres méthodes d’échantillonnage plus efficaces (comme l’échantillonnage stratifié par exemple). Si la collecte doit être réalisée en personne, l’EAS pourrait donner un échantillon trop dispersé géographiquement qui ferait grimper les coûts de collecte et la durée de l’enquête.

Exemple n° 2

Imaginez que vous êtes propriétaire d’un cinéma et que vous planifiez y organiser un festival de films d’horreur le mois prochain. Pour déterminer quels films d’horreur vous y présenterez, vous voulez demander à des cinéphiles quels films ils préfèrent parmi les films que vous leur énumérerez. Pour dresser la liste des films nécessaire à votre sondage, vous décidez d’échantillonner 10 des 100 meilleurs films d’horreur de tous les temps. L’une des façons d’obtenir un échantillon consisterait à écrire tous les titres des films sur des bouts de papier, à les placer dans une boîte et à tirer les 10 titres qui constitueront votre échantillon. En utilisant cette méthode, vous auriez l’assurance que chaque film avait une probabilité égale d’être sélectionné. Vous pourriez même calculer cette probabilité, en divisant la taille de l’échantillon (n=10) par la taille de la population des 100 meilleurs films d’horreur de tous les temps (N=100). Cette probabilité serait de 0,10 (10/100), soit une chance sur dix.

Échantillonnage systématique

L’échantillonnage systématique signifie qu’il existe un écart, ou un intervalle, entre chaque unité sélectionnée dans l’échantillon. Par exemple, vous pourriez suivre les étapes suivantes :

  1. Numérotez de 1 à N les unités incluses dans votre base de sondage (où N est la taille de la population totale).
  2. Déterminez l’intervalle d’échantillonnage (K) en divisant le nombre d’unités dans la base de sondage par la taille de l’échantillon que vous désirez obtenir. Par exemple, pour sélectionner un échantillon de 100 unités à partir d’une population de 400, vous auriez besoin d’un intervalle d’échantillonnage de 400/100 = 4. Donc K=4. Vous devrez sélectionner une unité sur quatre pour avoir au total 100 unités à l’intérieur de votre échantillon.
  3. Sélectionnez au hasard un nombre entre 1 et K. Ce nombre s’appelle l’origine choisie au hasard et ce sera le premier nombre inclus dans votre échantillon. Si vous choisissiez 3, la troisième unité incluse dans votre base de sondage serait la première unité comprise dans votre échantillon; si vous choisissiez 2, le début de votre échantillon serait la deuxième unité incluse dans votre base de sondage.
  4. Sélectionnez chaque Ke (dans cet exemple, chaque 4e) unité après ce premier nombre. L’échantillon pourrait, par exemple, se composer des unités suivantes de façon à constituer un échantillon de 100 : 3 (l’origine choisie au hasard), 7, 11, 15, 19… 395, 399 (jusqu’à N, qui est 400 dans ce cas).

Vous pouvez constater que dans l’exemple ci-dessus seulement quatre échantillons sont possibles, soit ceux qui correspondent aux quatre origines possibles :

1, 5, 9, 13… 393, 397

2, 6, 10, 14… 394, 398

3, 7, 11, 15… 395, 399

4, 8, 12, 16… 396, 400

Chaque unité de la population ne fait partie que d’un seul des quatre échantillons et chaque échantillon a une probabilité égale d’être sélectionné. Chaque unité a donc une chance sur quatre de faire partie de l’échantillon, soit la même probabilité que si un EAS de taille 100 avait été tiré. La principale différence tient au fait que dans le cas d’un EAS, n’importe quelle combinaison de 100 unités aurait une chance de constituer l’échantillon, tandis que dans celui d’un échantillonnage systématique, il n’y a que quatre échantillons possibles. L’ordre des unités dans la base de sondage déterminera les échantillons systématiques possibles. Si la population est distribuée au hasard dans la base de sondage, un échantillonnage systématique devrait produire des résultats similaires à ceux d’un échantillonnage aléatoire simple.

Cette méthode est souvent utilisée dans l’industrie, où l’on sélectionne une unité pour des essais dans une chaîne de production afin de s’assurer que la machinerie et l’équipement sont d’une qualité uniforme. Un testeur dans une usine pourrait, par exemple, soumettre à un contrôle de la qualité chaque 20e produit sur une chaîne de montage, en commençant par un point initial choisi au hasard entre 1 et 20.

Les intervieweurs peuvent mettre en œuvre cette technique d’échantillonnage lorsqu’ils interrogent des gens pour une enquête-échantillon. Le responsable d’une étude de marché pourrait sélectionner, par exemple, chaque 10e personne qui entrerait dans un commerce, après avoir sélectionné au hasard la première personne. Un enquêteur pourrait interviewer les occupants de chaque 5e maison d’une rue, après avoir sélectionné au hasard l’une des cinq premières maisons.

Les avantages de l’échantillonnage systématique tiennent au fait que la sélection de l’échantillon ne peut être plus facile : vous n’obtenez qu’un seul nombre aléatoire, l’origine choisie au hasard, et le reste de l’échantillon suit automatiquement. Le plus gros inconvénient de la méthode tient au fait que les échantillons possibles risquent de ne pas être représentatifs de la population s’il existe un trait périodique dans l’ordre d’apparition des unités sur la base de sondage et que ce trait périodique coïncide d’une quelconque façon avec l’intervalle d’échantillonnage. C’est ce que l’on peut constater dans l’exemple qui suit :

Exemple n° 3

Supposez que vous dirigez une épicerie de grande surface et que vous possédez une liste des employés de chacune de ses sections. L’épicerie est divisée entre les 10 sections suivantes : le comptoir de charcuterie, la boulangerie, les caisses, les stocks, le comptoir des viandes, les fruits et légumes, la pharmacie, le magasin de photographie, le magasin de fleurs et le nettoyage à sec. Chaque section compte 10 employés, incluant un gérant (ce qui fait 100 employés au total). Votre liste est ordonnée par section, le gérant y étant énuméré le premier et les autres employés y étant ensuite inscrits dans l’ordre décroissant d’ancienneté.

Si vous voulez sonder vos employés au sujet de leurs opinions sur leur milieu de travail, vous pourriez choisir un petit échantillon pour répondre à vos questions. Si vous utilisiez un échantillonnage systématique, et si votre intervalle d’échantillonnage était 10, vous pourriez alors ne sélectionner que les gérants ou que les employés de chaque section ayant le moins d’ancienneté. Ce type d’échantillon ne vous donnerait pas un portrait complet ni approprié de l’opinion de vos employés.

Échantillonnage avec probabilité proportionnelle à la taille

Dans le contexte d’un échantillonnage probabiliste, il faut que chaque unité de la population observée ait une probabilité connue d’être incluse dans l’échantillon, mais il n’est pas nécessaire qu’elle soit la même pour tous. Si la base de sondage renferme de l’information sur la taille de chaque unité (comme le nombre d’employés de chacune des entreprises qui y sont inscrites) et si la taille de ces unités varie, on peut utiliser cette information dans le cadre de la sélection de l’échantillon afin d’en accroître l’efficacité. Cela s’appelle l’échantillonnage avec probabilité proportionnelle à la taille. Dans le cas de cette méthode, plus la taille de l’unité est grande, plus sa chance d’être incluse dans l’échantillon est élevée. Il faut que la mesure de la taille soit exacte pour que cette méthode augmente l’efficacité. C’est une méthode d’échantillonnage plus complexe qui ne sera pas traitée plus en détail ici.

Échantillonnage stratifié

Lorsque l’on utilise l’échantillonnage stratifié, on divise la population en groupes homogènes appelés strates qui sont mutuellement exclusifs, puis on sélectionne dans chaque strate des échantillons indépendants. N’importe laquelle des méthodes d’échantillonnage mentionnées dans la présente section peut être utilisée pour sélectionner l’échantillon à l’intérieur de chaque strate. La méthode d’échantillonnage peut être différente d’une strate à une autre. Toute variable pour laquelle on dispose d’une valeur pour la totalité des unités incluses dans la base de sondage (comme l’âge, le sexe, la province de résidence, le revenu, etc.) peut être utilisée pour mettre en œuvre la stratification.

Pourquoi créer des strates? Pour bien des raisons, la principale étant que leur utilisation peut rendre la stratégie d’échantillonnage plus efficace. Il a été mentionné à la section précédente que pour obtenir une estimation d’une certaine précision, il faut un échantillon plus grand pour une caractéristique qui varie beaucoup d’une unité à l’autre comparativement à une caractéristique pour laquelle la variabilité est moins grande. Si chaque personne incluse dans une population avait le même salaire, il suffirait alors d’un échantillon d’une seule unité pour obtenir une estimation précise du salaire moyen des membres de cette population.

C’est le principe qui sous-tend le gain d’efficacité réalisé grâce à la stratification. Si vous créez des strates à l’intérieur desquelles les unités auraient des caractéristiques similaires et qui différeraient considérablement de celles des unités incluses dans d’autres strates, vous n’auriez alors besoin que d’un petit échantillon tiré de chaque strate afin d’obtenir une estimation précise du revenu total pour la strate en question. Vous pourriez ensuite combiner ces estimations afin d’obtenir une estimation précise du revenu total de l’ensemble de la population. Si vous deviez utiliser un EAS de la population entière, il vous faudrait un échantillon plus grand que l’ensemble des échantillons de toutes les strates afin d’obtenir une estimation du même degré de précision pour le revenu total.

Un autre avantage est que l’échantillonnage stratifié assure d’obtenir une taille d’échantillon suffisante pour des sous-groupes d’intérêt de la population. Étant donné que chaque strate devient une population indépendante, une taille d’échantillon est déterminée pour chacune d’entre elles.

Exemple n° 4

Supposons que vous voulez estimer combien d’élèves des écoles secondaires ont un emploi à temps partiel, et ce, tant au niveau national qu’au niveau provincial. Si vous deviez sélectionner un échantillon aléatoire simple de 25 000 personnes à partir d’une liste de tous les élèves des écoles secondaires du Canada (en supposant que vous disposiez d’une telle liste), vous n’obtiendriez probablement qu’un peu plus de 100 personnes de l’Île-du-Prince-Édouard dans l’échantillon, puisque cette province représente moins 0,5 % de la population canadienne. Cet échantillon ne serait pas assez important pour le genre d’analyse détaillée que vous planifiez. Le fait de stratifier votre liste par province puis de déterminer la taille d’échantillon exacte qu’il vous faudrait pour chacune des provinces vous permettrait d’obtenir la précision souhaitée pour l’Île-du-Prince-Édouard et pour chacune des autres provinces.

La stratification est très utile lorsque les variables de stratification sont :

  • simples à utiliser,
  • faciles à observer,
  • étroitement reliées au thème de l’enquête.

Échantillonnage par grappes

Il est parfois trop dispendieux d’avoir un échantillon réparti sur l’ensemble du territoire. Les coûts de déplacement risquent de devenir élevés si les intervieweurs doivent sonder des gens d’un bout à l’autre du pays. Les statisticiens peuvent choisir la technique de l’échantillonnage par grappes pour réduire les coûts.

La technique de l’échantillonnage par grappes implique la division de la population en groupes ou en grappes, comme son nom l’indique. Suivant cette technique, un certain nombre de grappes est sélectionné au hasard, puis toutes les unités incluses à l’intérieur des grappes sélectionnées constituent l’échantillon. Aucune unité des grappes non sélectionnées ne fait partie de l’échantillon. Elles sont représentées par les unités des grappes sélectionnées. Rappelons que dans un échantillon stratifié, des unités sont sélectionnées dans toutes les strates. C’est donc l’une des différences entre les deux approches. Entre autres exemples de grappes qui peuvent être utilisées, il y a les usines, les établissements d’enseignement et les régions géographiques telles que les subdivisions électorales.

Exemple n° 5

Supposons que vous représentez une organisation d’athlétisme désirant déterminer quels sports pratiquent les élèves de secondaire 4 (ou 11e année) au Canada. Il serait trop dispendieux et trop long d’interroger chaque élève canadien de secondaire 4 ou même deux ou trois élèves de chaque classe. Vous pourriez plutôt sélectionner au hasard 100 écoles dans tout le pays. Ces 100 écoles seraient les grappes échantillonnées. Tous les élèves de secondaire 4 de chacune des 100 écoles pourraient alors être interrogés.

L’échantillonnage par grappes crée des « poches » d’unités échantillonnées, au lieu de répartir l’échantillon également sur tout le territoire, ce qui peut permettre de réduire les coûts des opérations de collecte. Le fait de ne pas disposer d’une liste de toutes les unités incluses dans la population, mais que la liste de toutes les grappes soit disponible ou facile à dresser constitue une raison supplémentaire d’utiliser l’échantillonnage par grappes.

Dans la plupart des cas, l’échantillonnage par grappes est moins efficace qu’un EAS. C’est le principal inconvénient de cette technique. Par conséquent, il est préférable de sonder un grand nombre de petites grappes, plutôt qu’un petit nombre de grandes grappes. Pourquoi? Parce que les unités avoisinantes tendent à se ressembler davantage, ce qui donne un échantillon ne représentant pas l’éventail complet d’opinions ou de situations de l’ensemble de la population. Dans l’exemple 5, les élèves de la même école auront tendance à pratiquer les mêmes types de sports, c’est-à-dire ceux pour lesquels leur établissement d’enseignement dispose de l’équipement nécessaire.

L’échantillonnage par grappes ne permet pas de contrôler totalement la taille finale de l’échantillon, ce qui constitue un autre inconvénient de son utilisation. Puisque les écoles ne comptent pas toutes le même nombre d’élèves de secondaire 4, il se pourrait que le nombre total d’élèves de secondaire 4 dans toutes les grappes sélectionnées soit inférieur ou supérieur à la taille d’échantillon à laquelle vous vous attendiez.

Échantillonnage à plusieurs degrés

La méthode d’échantillonnage à plusieurs degrés ressemble à la méthode d’échantillonnage par grappes, sauf qu’un échantillon est prélevé à l’intérieur de chaque grappe sélectionnée. Il y a alors au moins deux degrés. Identification et sélection des grappes au premier degré, suivi d’une sélection des unités au deuxième degré à l’aide de n’importe quelle autre méthode d’échantillonnage. Dans ce contexte, les grappes sont parfois désignées comme les unités primaires d’échantillonnage (UPE) et les unités de la population comme les unités secondaires d’échantillonnage (USE). Lorsque plus de deux degrés sont utilisés, une sélection supplémentaire d’unités tertiaires d’échantillonnage (UTE) est réalisée à l’intérieur des USE, et ainsi de suite jusqu’à l’obtention d’un échantillon final.

Exemple n° 6

Dans l’exemple n° 5, 100 écoles avaient été sélectionnées au hasard et tous les élèves de secondaire 4 de ces écoles devaient être interrogés. Vous pourriez plutôt décider de sélectionner davantage d’écoles, de vous procurer une liste de tous les élèves de secondaire 4 des écoles sélectionnées et de choisir au hasard un EAS d’élèves dans chaque école. Ce serait là un plan d’échantillonnage à deux degrés. Les écoles seraient les UPE et les élèves les USE.

Vous pourriez tout aussi bien obtenir une liste de toutes les classes de secondaire 4 des écoles sélectionnées, prélever un EAS des classes de secondaire 4 dans chacune de ces écoles, vous procurer une liste de tous les élèves des classes sélectionnées et finalement choisir un échantillon d’élèves de chaque classe sélectionnée. Ce serait un plan d’échantillonnage à trois degrés. Les écoles seraient les UPE, les classes les USE et les élèves les UTE. Le processus se complique chaque fois qu’un degré est ajouté.

Imaginons maintenant que chaque école compte en moyenne 80 élèves de secondaire 4. L’échantillonnage en grappes vous permettrait d’obtenir un échantillon d’environ 8 000 élèves (100 écoles x 80 élèves). Pour avoir un échantillon de plus grande taille, vous pourriez sélectionner des écoles comptant davantage d’élèves, et pour un échantillon de plus petite taille, vous pourriez sélectionner des écoles comptant moins d’élèves. Le moyen de contrôler la taille de l’échantillon consisterait à stratifier les écoles en fonction de la taille (petite, moyenne ou grande, en référence au nombre d’élèves de secondaire 4) et à sélectionner un échantillon d’écoles dans chaque strate. On appelle cette méthode la méthode d’échantillonnage en grappes stratifiées.

Une approche alternative pour contrôler la taille de l’échantillon serait d’utiliser un plan d’échantillonnage à trois degrés. Vous pourriez sélectionner un échantillon de 400 écoles, puis sélectionner deux classes de secondaire 4 par école et finalement sélectionner 10 élèves par classe. De cette façon, vous finiriez quand même par avoir un échantillon d’environ 8 000 élèves (400 écoles x 2 classes x 10 élèves), mais l’échantillon serait davantage dispersé sur le territoire.

L’échantillonnage à plusieurs degrés permet d’obtenir un échantillon moins dispersé sur le territoire qu’avec l’EAS, par exemple, ce qui peut réduire les coûts de la collecte. Cependant, il n’est pas aussi concentré qu’avec un échantillonnage par grappes et la taille de l’échantillon nécessaire pour obtenir une certaine précision sera plus grande qu’avec l’EAS, car il est moins efficace. Il épargne quand même beaucoup de temps et d’efforts comparativement à l’EAS, parce qu’il ne nécessite pas la création d’une liste de toutes les unités de la population. Vous n’auriez pas besoin de la liste de tous les étudiants de secondaire 4 du pays, mais plutôt d’une liste des classes des 400 écoles et des élèves des 800 classes sélectionnées.

Échantillonnage à plusieurs phases

L’échantillonnage à plusieurs phases fait référence à la collecte de données de base auprès d’un large échantillon d’unités de la population, suivi d’une collecte de données plus détaillées pour un sous-échantillon de ces unités. La forme la plus courante d’échantillonnage à plusieurs phases est l’échantillonnage à deux phases (ou l’échantillonnage double), mais il est également possible d’effectuer un échantillonnage à trois phases ou plus.

L’échantillonnage à plusieurs phases est assez différent de l’échantillonnage à plusieurs degrés, malgré la similarité de leurs noms. Même si l’échantillonnage à plusieurs phases implique le prélèvement de deux échantillons ou plus, la différence est que ces échantillons sont tirés de la même base de sondage. La sélection d’une unité dans la deuxième phase est conditionnelle à sa sélection dans la première phase. Une unité qui n’a pas été sélectionnée dans la première phase ne se retrouvera pas dans la seconde phase non plus. Comme dans le cas de l’échantillonnage à plusieurs degrés, plus le nombre de phases est élevé, plus le plan d’échantillonnage et l’estimation sont complexes.

L’échantillonnage à plusieurs phases est utile lorsque les informations auxiliaires qui pourraient servir à stratifier la population ou à exclure de la sélection une partie de la population ne sont pas présentes dans la base de sondage.

Exemple n° 7

Supposons qu’une organisation a besoin d’information sur des éleveurs de bétail de l’Alberta, mais que la base de sondage contient tous les types d’exploitations agricoles : d’élevage de bétail et de production laitière, de grains, de porcs, de volailles et de fruits et légumes. Pour compliquer les choses, la base de sondage ne fournit aucune donnée auxiliaire sur les exploitations agricoles qui y sont énumérées.

Il serait possible de mener une enquête toute simple dont la seule question serait : « Votre exploitation agricole est-elle en partie ou en totalité consacrée à l’élevage du bétail? » Comme elle ne compterait qu’une seule question, cette enquête devrait entraîner un faible coût par entrevue (surtout si elle est faite au téléphone), ce qui, par conséquent, permettrait à l’organisation de prélever un grand échantillon. Une fois ce premier échantillon prélevé, il serait possible d’en obtenir un second, plus petit, à partir des éleveurs de bétail, et de contacter ces exploitations agricoles pour poser des questions plus détaillées. Cette méthode éviterait à l’organisation de dépenser de l’argent pour sonder des unités ne faisant pas partie du champ d’observation (c’est-à-dire les producteurs agricoles autres que les éleveurs de bétail).

Dans l’exemple 7, l’échantillon de la première phase a été utilisé pour exclure des unités ne faisant pas partie de la population cible. Dans un autre contexte, l’information aurait pu être utilisée pour réaliser un échantillonnage plus efficace à la seconde phase, par exemple en utilisant l’information recueillie à la première phrase pour stratifier l’échantillon de la seconde phase. La méthode peut également être utilisée pour réduire le fardeau de réponse ou lorsque les coûts de collecte sont très différents d’une question de l’enquête à l’autre, comme dans l’exemple suivant.

Exemple n° 8

On pose aux participants d’une enquête sur la santé des questions de fond au sujet de leur régime alimentaire, de leur consommation de tabac et d’alcool et de leur pratique d’activité physique. Cette enquête demande en outre aux répondants de se soumettre à certains examens médicaux, comme courir sur un tapis roulant ou faire mesurer leur tension artérielle et leur taux de cholestérol.

Interroger des participants ou leur faire remplir des questionnaires sont des procédures relativement peu dispendieuses, mais les examens médicaux exigent la supervision et l’aide d’un professionnel de la santé qualifié, de même que l’utilisation d’un laboratoire équipé, ce qui peut être assez dispendieux. La meilleure façon de mener l’enquête susmentionnée consisterait à utiliser une méthode d’échantillonnage à deux phases. À la première phase, on interrogerait un échantillon d’une taille appropriée. On prélèverait à partir de cet échantillon un second échantillon plus petit. Ce sont les membres de ce second échantillon qui passeraient alors des examens médicaux.


Date de modification :