Statistique Canada
Symbole du gouvernement du Canada

Liens de la barre de menu commune

Calcul de la médiane

Contenu archivé

L’information dont il est indiqué qu’elle est archivée est fournie à des fins de référence, de recherche ou de tenue de documents. Elle n’est pas assujettie aux normes Web du gouvernement du Canada et elle n’a pas été modifiée ou mise à jour depuis son archivage. Pour obtenir cette information dans un autre format, veuillez communiquer avec nous.

Lorsqu’on ordonne les observations d’une variable, la valeur médiane correspond à l’observation qui se trouve au point milieu de cette liste ordonnée. Elle correspond plus précisément à un pourcentage cumulé de 50 % (c’est-à-dire que 50 % des valeurs sont supérieures à la médiane et 50 % lui sont inférieures). La position de la médiane est :

la valeur à la position (n + 1) ÷ 2, le n désignant le nombre de valeurs dans un ensemble de données.

Pour calculer la médiane, il faut d’abord ordonner les données (les trier dans l’ordre ascendant). La médiane est le nombre qui se situe au point milieu.

Médiane = la valeur du milieu d’un ensemble de données ordonnées

On calcule habituellement la médiane pour des variables numériques, mais on peut également la calculer pour des variables catégoriques qui sont séquentielles, comme les catégories d’un sondage sur la satisfaction (excellent, bon, satisfaisant et médiocre). On peut classer ces catégories qualitatives en ordre donc elles sont considérées comme des mesures ordinales.

Données brutes

Dans le cas des données brutes, la médiane est la valeur pour laquelle exactement la moitié des données se situent au-dessus, tandis que l’autre moitié lui est inférieure. Ces deux moitiés se rencontrent à la position médiane. Si le nombre d’observations est impair, la médiane s’avère parfaite et le nombre à la position de la médiane sera un nombre entier. Par ailleurs, si le nombre d’observations est pair, la position de la médiane sera une décimale. Vous devez trouver le point milieu entre les valeurs d’un côté et de l’autre de la position de la médiane.

Exemple 1 – Données brutes (variables discrètes)

Supposons qu’un champion coureur effectue une course d’entraînement typique de 200 mètres dans les temps suivants :

26,1 secondes, 25,6 secondes, 25,7 secondes, 25,2 secondes et 25,0 secondes.

Comment calcule-t-on le temps médian?

On commence d’abord en classant les valeurs dans l’ordre ascendant : 25,0, 25,2, 25,6, 25,7 et 26,1.

On utilise ensuite la formule qui suit pour déterminer quelle valeur constitue la valeur du milieu. Rappelons que n représente le nombre de valeurs qui se trouve dans l’ensemble de données.

Médiane = la valeur à la position (n + 1) ÷ 2
= (5 + 1) ÷ 2
= 3

Donc la troisième valeur dans l’ensemble de données sera la médiane. Comme la troisième valeur est 25,6 secondes, elle constituera le temps médian.

= 25,6 secondes

Exemple 2 – Données brutes (variables discrètes)

Maintenant, disons que le coureur effectue sa sixième course de 200 mètres en 24,7 secondes. Dans ce cas, quelle est la valeur médiane?

On place, encore une fois, les données dans l’ordre ascendant : 24,7, 25,0, 25,2, 25,6, 25,7, 26,1. On utilise ensuite la même formule pour calculer le temps médian.

Médiane = la valeur à la position (n + 1) ÷ 2
= (6 + 1) ÷ 2
= 7 ÷ 2
= 3,5

Comme il y a un nombre pair d’observations dans cet ensemble de données, il n’y a pas de valeur du milieu distincte. La médiane tombe entre les 3e et 4e valeurs, c’est-à-dire la 3,5e observation dans l’ensemble de données. On calcule donc la médiane en établissant la moyenne des deux valeurs du milieu, 25,2 et 25,6. Utilisez la formule ci-dessous pour calculer la valeur moyenne.

Moyenne = (valeur au-dessous de la médiane + valeur au-dessus de la médiane) ÷ 2
= (troisième valeur + quatrième valeur) ÷ 2
= (25,2 + 25,6) ÷ 2
= 50,8 ÷ 2
= 25,4

La valeur 25,4 se situe directement entre les troisième et quatrième valeurs dans cet ensemble de données. Le temps médian est donc de 25,4 secondes.

Distribution de fréquences non groupées

Pour trouver la médiane à partir des fréquences cumulées (ou le nombre d’observations qui se situent au-dessus ou au-dessous d’une valeur particulière dans un ensemble de données), vous devez calculer la première valeur à l’aide d’une fréquence cumulée égale ou supérieure à la valeur médiane. Si la valeur médiane est exactement supérieure de 0,5 à la fréquence cumulée de la valeur précédente, la médiane constituera alors le point milieu entre les deux intervalles.

Exemple 3 – Tableau de fréquences non groupées (variables discrètes)

Imaginez que le nombre de coups de circuit frappés en dix parties par l’équipe de baseball de votre école s’établit comme suit :

4, 5, 8, 5, 7, 8, 9, 8, 8, 7

Si vous deviez consigner le nombre total de coups de circuit frappés dans un tableau de fréquences, quel serait la médiane?

Vous devez d’abord classer les résultats dans l’ordre ascendant :

4, 5, 5, 7, 7, 8, 8, 8, 8, 9

Construisez ensuite un tableau comportant deux colonnes. L’étiquette de la première colonne devrait s’intituler « Nombre de coups de circuit frappés ». Ensuite, indiquez le nombre de coups de circuits frappés que l’équipe pourrait possiblement réaliser. Vous pouvez commencer par 0 en augmentant progressivement jusqu’à 10, mais comme l’équipe n’a jamais réalisé plus de 4 coups de circuits frappés, vous pourriez peut-être commencer par le nombre 4.

L’étiquette de la deuxième colonne devrait s’intituler « Fréquence ». Inscrivez dans cette colonne le nombre de fois que l’équipe a réalisé 4 coups de circuit frappés, 5 coups de circuit frappés et ainsi de suite. Dans ce cas, bien que l’équipe ait réalisé 4 coups de circuit frappés une seule fois, elle a en réalisé 5 à deux reprises. Si vous additionnez tous les chiffres dans la colonne « Fréquence », le total devrait être 10 (soit le nombre de parties disputées).

Tableau 1.  Nombre de coups de circuit frappés en 10 parties de baseball
Nombre de coups de circuit frappés (x) Fréquence (f)
4 1
5 2
6 0
7 2
8 4
9 1

Vous devez utiliser la même formule pour trouver la médiane :

Médiane = la valeur à la position (n + 1) ÷ 2
= (10 + 1) ÷ 2
= 11 ÷ 2
= 5,5
= la médiane est la 5,5e valeur dans l’ensemble de données

Pour obtenir la médiane, vous devez additionner chaque nombre inscrit dans la colonne « Fréquence » jusqu’à ce que vous obteniez 5 comme total (puisque 10 parties ont été disputées, le total des nombres restant dans la colonne sera aussi égal à 5). Vous obtiendrez le total de 5 après avoir additionné toutes les fréquences allant jusqu’à 7 coups de circuit frappés inclusivement. Le prochain ensemble de cinq commence par les fréquences pour 8 coups de circuit frappés. La médiane (c’est-à-dire la 5,5e valeur) se situe entre les cinquième et sixième valeurs. Par conséquent, la médiane se situe entre les 7 et 8 coups de circuit frappés.

Si vous calculez la moyenne de ces valeurs (en utilisant la même formule que celle employée pour l’exemple 2), le résultat doit être 7,5.

Moyenne = (valeur précédent le milieu + valeur qui suit le milieu) ÷ 2
= (cinquième valeur+ sixième valeur) ÷ 2
= (7 + 8) ÷ 2
= 15 ÷ 2
= 7,5

Techniquement, la médiane doit correspondre à une variable possible. Dans l’exemple ci-dessus, les variables sont discrètes et sont toujours des nombres entiers. Par conséquent, 7,5 n’est pas une variable possible, puisque personne ne peut frapper 7,5 coups de circuit. Ce nombre est significatif seulement dans un contexte statistique. Certains mathématiciens pourraient faire valoir que 8 est une médiane plus appropriée.

Distribution de fréquences groupées

Il est parfois préférable de ne pas inscrire toutes les variables individuelles dans un tableau de distribution de fréquences lorsque celui-ci deviendrait trop long et difficile à utiliser. Pour simplifier l’opération, divisez l’étendue de données en intervalles, puis indiquez les intervalles dans un tableau de distribution de fréquences qui comprendra une colonne pour le pourcentage cumulé. (Pour plus de renseignements, consultez la section Fréquence cumulée.)

Le calcul de la médiane prend un peu plus de temps, parce que les données ont été groupées en intervalles, ce qui fait que toute l’information originale a été perdue. Dans certains manuels, on utilise seulement le point milieu d’un intervalle comme médiane. Toutefois, cela est une simplification de la valeur réelle. Effectuez les calculs suivants pour trouver la médiane dans une distribution de fréquences groupées.

  1. Déterminez où se trouve la médiane parmi les intervalles à l’aide de la formule (n + 1) ÷ 2. Utilisez la valeur qui en résultera, puis additionnez tous les chiffres inscrits dans la colonne des fréquences jusqu’à ce que vous obteniez ce nombre (comme dans l’exemple 3). Si votre médiane, par exemple, se trouve à la valeur 13,5, additionnez les fréquences jusqu’à ce que vous atteigniez les 13e et 14e valeurs. L’intervalle dans laquelle on retrouvera ces valeurs s’appelle le groupe médian.
  2. Déterminez le pourcentage cumulé de l’intervalle qui précède le groupe médian. Désignez cette valeur par la lettre A.
  3. À l’aide du pourcentage cumulé, calculez combien de nombres sont nécessaires pour atteindre 50 % du pourcentage cumulé total. Intitulez cette valeur au moyen de la lettre B. Utilisez la formule qui suit pour calculer la valeur de B :

    B = 50 - A
  4. Déterminez l’étendue (c.-à-d., combien il y a de nombres dans l’intervalle). Appelez cette valeur C. Calculez ensuite le pourcentage de l’intervalle médian. Désignez cette valeur par la lettre D.
  5. Déterminez le nombre de valeurs dans la médiane que vous devez compter pour atteindre 50 % du total de l’ensemble des données à l’aide de la formule qui suit. Désignez cette valeur par la lettre E.

    E = (B ÷ D) x C
  6. Calculez la médiane en additionnant la valeur de E à celle qui se trouve à l’extrémité de l’intervalle médian :

    Médiane = valeur inférieure + E

    Puisque E = (B ÷ D) x C, cette formule peut aussi être décrite comme suit :

    Médiane = valeur inférieure + (B ÷ D) x C

Si la fréquence cumulée de l’intervalle est exactement 50 %, la valeur médiane constituera donc l’extrémité de cet intervalle.

Voici un exemple pour vous aider à mieux comprendre!

Exemple 4 – Variables groupées – distribution de fréquences (variables continues ou discrètes)

En utilisant les mêmes renseignements que dans l’exemple 4 de la section sur la moyenne, imaginez que vous avez effectué une enquête auprès de 50 filles de 10e année afin de savoir quelle est la taille de chacune d’elles, en centimètres. Après avoir rassemblé toutes vos données, créez un tableau de distribution de fréquences qui ressemble un peu à celui-ci :

Tableau 2.  Tailles des filles de 10e année
Taille (cm) Fréquence (f) Extrémité (x) Fréquence cumulée Pourcentage Pourcentage cumulé
150 à < 155 4 155 4 8 8
155 à < 160 7 160 11 14 22
160 à < 165 18 165 29 36 58
165 à < 170 11 170 40 22 80
170 à < 175 6 175 46 12 92
175 à < 180 4 180 50 8 100

À l’aide des données groupées, tracez un diagramme de fréquences cumulées pour accompagner votre tableau. Dessinez dans votre diagramme les extrémités des intervalles de tailles ainsi que les nombres se rapportant à la fréquence cumulée et au pourcentage cumulé.

Figure 1. Tailles des filles de 10e année. Diagramme de fréquences cumulées des données de la tableau 2.

Essayez de trouver la médiane simplement en observant le diagramme. La médiane est le point où l’axe x (la taille) croise le point milieu (25) de l’axe y (la fréquence cumulée). Vous constaterez que la médiane est environ 164 cm. Si vous faites un calcul mathématique, vous constaterez que la valeur réelle se situe à 163,9 cm. Voici comment :

  1. À l’aide de l’information fournie au tableau 2 :

    Médiane = la valeur à la position (n + 1) ÷ 2
    = (50 + 1) ÷ 2
    = 51 ÷ 2
    = 25,5

    En additionnant les fréquences, on constate que la médiane (25,5) se trouve dans le groupe médian de l’intervalle 160 à < 165 cm.
  2. Le pourcentage cumulé de l’intervalle précédent (A) est 22.
  3. Le pourcentage nécessaire pour obtenir 50 % du pourcentage cumulé total (B) est 28.

    B = 50 - A
    = 50 - 22
    = 28
  4. L’étendue de l’intervalle médian (C) est 5, alors que le pourcentage de l’intervalle médian (D) est 36.
  5. Le nombre de valeurs que vous devez compter pour obtenir 50 % du total de l’ensemble des données est 3,9.

    E = (B ÷ D) x C
    = (28 ÷ 36) x 5
    = 3,9
  6. Comme la valeur la plus faible de l’intervalle médian est 160, vous devez additionner la valeur de E pour obtenir la médiane de 163,9 cm.

    Médiane = valeur la plus faible de l’intervalle médian + (B ÷ D) x C
    = 160 + (28 ÷ 36) x 5
    = 160 + 3,9
    = 163,9 cm

Diagrammes à tiges et à feuilles

Les diagrammes à tiges et à feuilles ordonnés simplifient le calcul de la médiane, particulièrement dans le cas où les fréquences cumulées ont déjà été calculées. Examinons les tailles des 50 filles de 10e année à l’aide d’un diagramme à tiges et à feuilles. (Voir le chapitre intitulé Organisation des données pour plus de renseignements sur la façon de créer ces tableaux.)

Exemple 5 – Diagramme à tiges et à feuilles

Tableau 3. Tailles des filles de 10e année
Tige* (cm) Feuille Fréquence cumulée
15(0) 0 1 1 4 4
15(5) 5 6 7 7 8 8 8 11
16(0) 0 1 1 1 1 2 2 2 2 2 2 3 3 3 4 4 4 4 29
16(5) 5 5 5 5 6 6 6 7 7 8 9 40
17(0) 0 0 1 2 3 3 46
17(5) 6 6 7 8 50

*Nota : Les tiges ont été divisées en intervalles plus petits. La tige 15(0) signifie que toutes les données s’inscrivent à l’intérieur de l’intervalle 150 à 154. La tige 15(5) signifie que les données se situent à l’intérieur de l’intervalle de 155 à 159.

Comme il y a 50 éléments de données, la valeur de la médiane correspond à la 25,5e observation.

Médiane = la valeur à la position (n +1) ÷ 2
= (50 + 1) ÷ 2
= 51 ÷ 2
= 25,5

La médiane se situe donc entre les 25e et 26e valeurs. Pour connaître quelles sont ces valeurs, comptez chaque valeur inscrite dans la colonne des feuilles jusqu’à ce que vous atteigniez les 25e et 26e valeurs. Ces valeurs se trouvent dans l’intervalle 16(0), c’est-à-dire l’intervalle 160–164. Les nombres dans la colonne des feuilles représentent les nombres qui s’inscrivent dans l’intervalle (p.ex. , 3 représente 163). La médiane se situe donc entre les centimètres 163 (25e valeur) et 164 (26e valeur). Il faut calculer la moyenne de ces deux valeurs pour trouver la médiane.

Moyenne = (valeur avant la médiane + valeur après la médiane) ÷ 2
= (25e valeur + 26e valeur) ÷ 2
= (163 + 164) ÷ 2
= 327 ÷ 2
= 163,5

Puisque la taille est une variable continue, la valeur 163,5 cm est considérée comme une médiane acceptable.

La médiane obtenue à partir du diagramme de fréquences cumulés (164 cm) n’est pas la même que celle obtenue à partir du calcul utilisé dans l’exemple 4 (163,9 cm) ou du diagramme à tiges et à feuilles (163,5 cm). Cela s’explique par le fait qu’on peut seulement avoir une approximation de la médiane, à moins que le diagramme ne puisse être dessiné précisément à l’aide de toute l’information utilisée.

Les calculs de l’exemple 4 ne sont que des approximations, puisque des données groupées ne vous permettent pas de savoir la répartition du 36 % des 50 filles qui s’inscrivent dans l’intervalle médian. Par conséquent, on pourrait supposer qu’elles ont été réparties uniformément dans l’intervalle, si bien que la médiane pourrait varier légèrement. Toutefois, un diagramme à tiges et à feuilles est la méthode la plus précise qui soit pour obtenir la médiane, puisqu’on utilise la totalité des valeurs réelles.

Comparaison de la moyenne et de la médiane

Il est possible que la moyenne et la médiane d’une distribution aient la même valeur. C’est toujours le cas si la distribution est symétrique comme dans une distribution normale. Les deux valeurs seront proches l’une de l’autre si la distribution est en gros symétrique.

Dans l’exemple des tailles de 50 filles de 10e année, la moyenne (164,5 cm) est très proche de la valeur de la médiane (163,5 cm), parce que la distribution est en gros symétrique (voir le diagramme à tiges et à feuilles fourni dans l’exemple ci-dessus).

Toutefois, un chiffre ou un nombre peut modifier la moyenne sans influencer la médiane.

Exemple 6 – Comparaison de la moyenne et de la médiane

Examinons les ensembles de données suivants qui représentent le nombre de buts comptés par 3 joueurs en 11 parties de baseball.

Noémie : 1, 1, 1, 2, 2, 2, 2, 2, 3, 3, 3
Moyenne = 22 ÷ 11 = 2
Médiane = 2

Jeremy : 1, 1, 1, 2, 2, 2, 2, 2, 3, 3, 4
Moyenne = 23 ÷ 11 = 2,1
Médiane = 2

Alexandre : 1, 1, 1, 2, 2, 2, 2, 2, 3, 3, 14
Moyenne = 33 ÷ 11 = 3
Médiane = 2

Les trois ensembles de données ci-dessus sont identiques, à l’exception des dernières valeurs d’observation (3, 4 et 14).

La médiane ne varie pas, parce qu’elle ne dépend que de la valeur d’observation du milieu. Cependant, la moyenne varie beaucoup parce qu’elle dépend de la valeur moyenne de toutes les observations. Par conséquent, dans l’exemple ci-dessus, lorsque la valeur de la dernière observation augmente, la moyenne en fait autant.

Dans le troisième ensemble de données, la valeur de 14 varie beaucoup de toutes les autres valeurs. Quand une observation est très différente de toutes les autres d’un ensemble de données, on l’appelle une valeur aberrante. (Voir la section sur les diagrammes à tiges et à feuilles pour plus de renseignements sur les valeurs aberrantes.) La moyenne est la mesure de la tendance centrale la plus influencée par les valeurs aberrantes.

Il peut parfois y avoir des valeurs aberrantes en raison d'une erreur ou d'une déformation délibérée de l'information. Si tel est le cas, on devrait exclure les valeurs aberrantes de la mesure de tendance centrale. Dans d'autres cas, les valeurs aberrantes s’avèrent très utiles pour démontrer la mesure dans laquelle une valeur peut différer des autres.

Exemple 7 – Comparaison de la moyenne et de la médiane

Lorsqu’un article de journal renvoie aux prix des maisons, on y cite habituellement le prix médian. Pourquoi utilise-t-on cette mesure, plutôt que la moyenne?

Il y a beaucoup de maisons à prix modérés, mais certaines sont coûteuses et quelques-unes  sont très chères. Le prix moyen pourrait être assez élevé, puisqu'il inclut les prix des maisons les plus coûteuses. La médiane donne donc une valeur plus exacte et réaliste des prix auxquels la plupart des gens sont confrontés.

En résumé, la médiane est le nombre au centre d'une distribution. La médiane est utile lorsqu'une distribution est déxaxée (ou déséquilibrée), parce que cette mesure n'est pas du tout  influencée par les valeurs aberrantes.

Exemple 8 – Comparaison de la moyenne et de la médiane

Supposons que vous voulez savoir combien d’argent une famille pourrait dépenser pour l’achat d’une maison. Cela dépendrait du revenu total de cette famille.

Pour une famille de cinq personnes (deux parents qui travaillent contre rémunération et trois enfants ne réalisant aucun revenu), le revenu moyen de chaque membre de cette famille est le revenu total de cette dernière divisé par cinq (p.ex. , 60 000 $ ÷ 5 = 12 000 $). Toutefois, le revenu médian de la famille en question serait zéro, parce que plus de la moitié de ses membres ne gagnent rien. Dans certains cas, la moyenne peut donc être plus révélatrice que la médiane.

Exemple 9 – Comparaison de la moyenne et de la médiane

Quand vous voulez déterminer si un pays est riche, vous pourriez envisager d’utiliser la médiane comme mesure de tendance centrale, plutôt que la moyenne.

Le revenu familial moyen pourrait être assez élevé si les revenus étaient fortement concentrés dans peu ou très peu de familles à l'aise (en dépit du fait que la plupart des familles ne gagneraient essentiellement rien). Le revenu familial médian serait donc une mesure plus significative (la moitié des familles gagneraient moins que le revenu médian et au moins 50 %  gagneraient autant ou plus que le revenu médian).

Exemple 10 – Comparaison de la moyenne et de la médiane

Supposons que vous postulez un emploi de comptable dans plusieurs grandes entreprises. Vous voulez vous faire une idée du montant d'argent que vous pourriez gagner en cinq ans en joignant les rangs de l'une ou l’autre des entreprises. Vous pourriez examiner les salaires des comptables de chaque entreprise cinq ans après leur engagement.

Un seul salaire très élevé pourrait accroître le salaire moyen, ce qui risquerait de ne pas refléter le salaire typique. D’un autre côté, la moitié des comptables gagnent le salaire médian ou moins et l’autre moitié, le salaire médian ou plus. La mesure de tendance centrale qui vous donnerait une meilleure idée d’un salaire typique serait donc la médiane.

Exemple 11 – Comparaison de la moyenne et de la médiane

En choisissant une mesure de tendance centrale qui vous est favorable, vous pouvez tromper des gens à l’aide de statistiques. En fait, cela se fait couramment.

Imaginez que vous êtes le propriétaire d’une boulangerie se spécialisant dans la fabrication et la vente de gâteaux de fête et d’énormes gâteaux de noces.

Il serait peut-être dans votre intérêt d’affirmer à vos clients que les prix de vos produits ont été réduits et à vos actionnaires que ces prix ont été augmentés. Supposons que l’an dernier vous avez vendu 100 000 gâteaux de fête 10 $ chacun et 1 000 gâteaux de noces 1 000 $ chacun. Cette année, vous avez vendu 100 000 gâteaux de fête 8 $ chacun et 1 000 gâteaux de noces 1 200 $ chacun.

  • Le prix médian des 101 000 gâteaux vendus l’an dernier est 10 $, parce que plus de 50 % de ceux-ci étaient des gâteaux de fête. Le prix médian des 101 000 gâteaux vendus cette année est 8 $.
  • Le prix moyen des 101 000 gâteaux vendus l’an dernier est 19,80 $.

    (100 000 x 10 $ + 1 000 x 1 000 $) ÷ 101 000 = 19,80 $
  • Le prix moyen des 101 000 gâteaux vendus cette année est également 19,80 $.

    (100 000 x 8 $ + 1 000 x 1 200 $) ÷ 101 000 = 19,80 $

Le prix moyen par gâteau vendu est le même pour les deux années. Vos recettes totales et le nombre d’articles vendus étaient aussi les mêmes. Vous pouvez faire en sorte que les données semblent indiquer des résultats contradictoires en choisissant la mesure de tendance centrale appropriée.

Il est important de souligner que vous n’êtes pas tenu de n’utiliser qu’une seule mesure de la tendance centrale. De façon à pouvoir obtenir le maximum d’information sur les données, vous pouvez utiliser à la fois la moyenne et la médiane.