4.5 Mesures de la dispersion
4.5.1 Calculer l'étendue et l'écart interquartile

Début du texte

Pour calculer l’étendue, il suffit de trouver la plus grande valeur observée d’une variable (le maximum) et de lui soustraire la plus petite valeur observée (le minimum). L’étendue ne tient compte que de ces deux valeurs et ignore les points de données entre les deux extrémités de la distribution. Elle sert de supplément à d’autres mesures, mais elle est rarement utilisée comme seule mesure de dispersion étant donné qu’elle est sensible aux valeurs extrêmes.

L’écart interquartile et l’écart semi-interquartile donnent une idée plus juste de la dispersion des données. Pour calculer ces deux mesures, il faut d’abord identifier les quartiles. Le quartile inférieur, ou premier quartile (Q1), est la valeur au-dessous de laquelle se trouvent 25 % des données lorsqu’elles sont arrangées en ordre croissant. Le quartile supérieur, ou troisième quartile (Q3), est la valeur au-dessous de laquelle se trouvent 75 % des données arrangées en ordre croissant. La médiane est considérée comme le second quartile (Q2). L’écart interquartile est la différence entre le quartile supérieur et le quartile inférieur. L’écart semi-interquartile est la moitié de l’écart interquartile.

Lorsque le jeu de données est petit, il est simple de trouver les valeurs des quartiles. Regardons un exemple.

Exemple 1 – Étendue et écart interquartile d’un ensemble de données

Identifiez les quartiles de l’ensemble de données suivant : 6, 47, 49, 15, 43, 41, 7, 39, 43, 41, 36.

Pour commencer, vous devez arranger les valeurs en ordre croissant. Ce faisant, vous pouvez donner un rang aux points de données. Le point correspondant à la plus petite valeur aura le rang 1, le point correspondant à la seconde plus petite valeur aura le rang 2 et ainsi de suite.


Tableau 4.5.1.1
Rang des points de données
Sommaire du tableau
Le tableau montre les résultats de Rang des points de données. Les données sont présentées selon Rang (titres de rangée) et Valeur(figurant comme en-tête de colonne).
Rang Valeur
1   6
2   7
3   15
4   36
5   39
6   41
7   41
8   43
9   43
10   47
11   49

Il vous faut ensuite trouver le rang de la médiane. Comme vu à la section sur la médiane, lorsque le nombre de points est impair, la médiane correspond à la valeur du point de rang

(n + 1) ÷ 2 = (11 + 1) ÷ 2 = 6

La médiane est le point de données de rang 6. Il y a donc 5 valeurs de chaque côté.

Vous devez séparer la moitié inférieure à la médiane en 2. Le quartile inférieur sera donc la valeur du point de rang (5 +1) ÷2 = 3, ce qui donne Q1=15. La moitié supérieure à la médiane est également séparée en 2. Le quartile supérieur sera la valeur du point de rang 6 + 3 =9, ce qui donne Q3 = 43.

Une fois les quartiles trouvés, il est facile de mesurer la dispersion. L’écart interquartile est Q3 - Q1, ce qui donne 28 (43-15). L’écart semi-interquartile est 14 (28 ÷ 2) et l’étendue est de 43 (49-6).

Pour les ensembles de données plus grands, il est possible d’utiliser la distribution de fréquence relative cumulée pour aider à identifier les quartiles ou, encore mieux, les fonctions statistiques de base disponibles dans les tableurs et logiciels statistiques qui donnent des résultats plus aisément.

Que se passe-t-il lorsque l’ensemble de données contient un point dont la valeur est extrême par rapport au reste de la distribution?

Exemple 2 – Étendue et écart interquartile en présente d’une valeur extrême

Trouvez l’étendue et l’écart interquartile de l’ensemble de données de l’exemple 1, auquel un point de données de valeur égale à 75 est ajouté.

L’étendue sera de 69 (75-6). La médiane correspondra à la moyenne entre la valeur du point de rang n ÷ 2 = 12 ÷ 2 = 6 et celle du point de rang (n ÷ 2) + 1 = (12 ÷ 2) + 1 =7. Elle tombe donc entre le sixième et le septième rang et il y a six valeurs de chaque côté.

Le quartile inférieur sera la moyenne de la valeur du point de rang 6 ÷2 = 3 et la valeur du point de rang (6 ÷ 2) + 1 = 4. Il est donc égal à (15 + 36) ÷2 = 25,5. Le quartile supérieur sera la moyenne de la valeur du point de rang 6 + 3 = 9 et de la valeur du point de range 6 + 4 = 10, soit (43 + 47) ÷ 2 = 45. L’écart interquartile est de 45 - 25,5 = 19,5.

En résumé, l’étendue est passée de 43 à 69, une augmentation de 26 par rapport à l’exemple 1, à cause d’une seule valeur extrême. L’écart interquartile, plus robuste, est passé de 28 à 19,5, soit une diminution de 8,5 seulement.

Cet exemple permet de démontrer que l’écart interquartile est plus robuste que l’étendue lorsque l’ensemble de données contient une valeur jugée extrême. Ce n’est toutefois pas une mesure parfaite. En effet, on aurait pu s’attendre à ce que la mesure de dispersion soit un peu plus élevée en ajoutant une valeur extrême, mais le contraire s’est produit parce qu’il y avait un écart important entre les valeurs des points de rangs 3 et 4.

La série des cinq valeurs constituées du minimum, des trois quartiles et du maximum est désignée comme « le résumé en cinq nombres ». C’est une manière bien connue de résumer un ensemble de données. Dans la prochaine section sur la boîte à moustaches, nous verrons une méthode pratique pour visualiser le résumé en cinq nombres.


Signaler un problème sur cette page

Quelque chose ne fonctionne pas? L'information n'est plus à jour? Vous ne trouvez pas ce que vous cherchez?

S'il vous plaît contactez-nous et nous informer comment nous pouvons vous aider.

Avis de confidentialité

Date de modification :