Statistique Canada
Symbole du gouvernement du Canada

Liens de la barre de menu commune

Variance et écart-type

Contenu archivé

L’information dont il est indiqué qu’elle est archivée est fournie à des fins de référence, de recherche ou de tenue de documents. Elle n’est pas assujettie aux normes Web du gouvernement du Canada et elle n’a pas été modifiée ou mise à jour depuis son archivage. Pour obtenir cette information dans un autre format, veuillez communiquer avec nous.

Contrairement à l'étendue et aux quartiles, la variance permet de combiner toutes les valeurs à l'intérieur d'un ensemble de données afin d'obtenir la mesure de dispersion. La variance (symbolisée par S2) et l'écart-type (la racine carré de la variance, symbolisée par S) sont les mesures de dispersion les plus couramment utilisées.

Nous savons que la variance est une mesure du degré de dispersion d'un ensemble de données. On la calcule en prenant la moyenne de l'écart au carré de chaque nombre par rapport à la moyenne d'un ensemble de données. Pour les nombres 1, 2 et 3, par exemple, la moyenne est 2 et la variance, 0,667.

[(1 - 2)2 + (2 - 2)2 + (3 - 2)2] ÷ 3 = 0,667

[somme de l'écart au carré] ÷ nombre d'observations = variance

Variance, (S2) = moyenne de l'écart au carré de valeurs par rapport à la moyenne

Comme le calcul de la variance se fait à partir des carrés des écarts, les unités de mesure ne sont pas les mêmes que celles des observations originales. Par exemple, les longueurs mesurées en mètres (m) ont une variance mesurée en mètres carrés (m2).

La racine carrée de la variance nous donne les unités utilisées dans l'échelle originale.

Écart-type (S) = Racine carrée de la variance

L'écart-type est la mesure de dispersion la plus couramment utilisée en statistique lorsqu'on emploie la moyenne pour calculer une tendance centrale. Il mesure donc la dispersion autour de la moyenne. En raison de ses liens étroits avec la moyenne, l'écart-type peut être grandement influencé si cette dernière donne une mauvaise mesure de tendance centrale.

L'écart-type est aussi influencé par les valeurs aberrantes; une seule de ces valeurs pourrait avoir une grande influence sur les résultats de l'écart-type. Il s'agit donc d'un bon indicateur de l'existence de valeurs aberrantes, ce qui en fait une mesure de dispersion très utile pour les distributions symétriques ne comptant aucune valeur aberrante.

L'écart-type est aussi utile quand on compare la dispersion de deux ensembles de données séparés qui ont approximativement la même moyenne. La dispersion des mesures autour de la moyenne est plus étroite dans le cas d'un ensemble de données dont l'écart-type est plus petit. Habituellement, un tel ensemble renferme comparativement moins de valeurs élevées ou de valeurs faibles. Un élément sélectionné au hasard à partir d'un ensemble de données dont l'écart-type est faible peut se rapprocher davantage de la moyenne qu'un élément d'un ensemble de données dont l'écart-type est plus élevé.

Généralement, plus les valeurs sont largement distribuées, plus l'écart-type est élevé. Imaginez, par exemple, que nous devons séparer deux ensembles différents de résultats d'examens de 30 élèves; les notes du premier examen varient de 31 % à 98 % et celles du second, de 82 % à 93 %. Compte tenu de ces étendues, l'écart-type serait plus grand pour les résultats du premier examen.

Il n'est pas toujours facile d'évaluer l'importance que doit avoir l'écart-type pour que les données soient largement dispersées. L'importance de la valeur moyenne de l'ensemble des données dépend aussi de l'importance de l'écart-type. Lorsque vous mesurez quelque chose en millions, le fait d'avoir des mesures qui se rapprochent de la valeur moyenne n'a pas la même signification que si vous mesurez le poids de deux personnes. Par exemple, si après avoir mesuré les recettes annuelles de deux grandes entreprises, vous constatez un écart de 10 000 $, la différence est considérée comme étant peu significative, alors que si vous mesurez le poids de deux personnes, dont l'écart est de 30 kilogrammes, la différence est considérée comme étant très significative. Voilà pourquoi il est utile, dans la plupart des cas, d'évaluer quelle est l'importance de l'écart-type par rapport à la moyenne de l'ensemble de données.

Même s'il est moins sensible aux valeurs extrêmes que l'étendue, l'écart-type est quand même plus sensible que l'écart semi-interquartile. Dans les cas où il y a des valeurs élevées aberrantes, on devrait aussi avoir recours à l'écart semi-quartile.

Propriétés de l'écart-type

Souvenez-vous des propriétés suivantes quand vous utilisez l'écart-type.

  • On n'utilise l'écart-type que pour mesurer la dispersion autour de la moyenne d'un ensemble de données.
  • L'écart-type n'est jamais négatif.
  • L'écart-type est sensible aux valeurs aberrantes. Une seule valeur aberrante peut accroître l'écart-type et, par le fait même, déformer le portrait de la dispersion.
  • Dans le cas des données ayant approximativement la même moyenne, plus la dispersion est grande, plus l'écart-type est grand.
  • L'écart-type est zéro si toutes les valeurs d'un ensemble de données sont les mêmes (parce que chaque valeur est égale à la moyenne).

Quand on analyse des données normalement distribuées, on peut utiliser l'écart-type parallèlement à la moyenne pour calculer des intervalles de données.

Si x barre = moyenne, S = écart-type et x = une valeur incluse dans l'ensemble de données, alors

  • environ 68 % des données se situent à l'intérieur de l'intervalle :
    x barre - S < x < x barre+ S.
  • environ 95 % des données se situent à l'intérieur de l'intervalle :
    x barre - 2S < x < x barre + 2S.
  • environ 99 % des données se situent à l'intérieur de l'intervalle :
    x barre - 3S < x < x barre + 3S.

Variables discrètes

On définit la variance d'une variable discrète composée de n observations comme suit :

Formule pour calculer la variance d'une variable discrète.

L'écart-type d'une variable discrète composée de n observations est la racine carrée positive des variances et se définit comme suit :

Formule pour calculer l'eacute;cart-type d'une variable discrète.

Utilisez cette méthode étape par étape pour trouver l'écart-type d'une variable discrète.

  1. Calculez la moyenne.
  2. Soustrayez de chaque observation la moyenne.
  3. Calculez le carré de chacune des autres observations.
  4. Additionnez ces résultats au carré.
  5. Divisez ce total par le nombre d'observations (la variance, S2).
  6. Utilisez la racine carrée positive (écart-type, S).

Exemple 1 – Écart-type

Une poule pond huit œufs. Voici les poids en grammes (g) des œufs :

60 g, 56 g, 6l g, 68 g, 51 g, 53 g, 69 g, 54 g.

  1. Premièrement, calculez la moyenne :

    Calcul de la moyenne pour exemple 1 a.
  2. Maintenant, trouvez l'écart-type.

    Tableau 1.  Poids des oeufs, en grammes
    Poids (x) (x - la moyenne) (x - la moyenne)2
    60 1 1
    56 -3 9
    61 2 4
    68 9 81
    51 -8 64
    53 -6 36
    69 10 100
    54 -5 25
    472   320

À l'aide de l'information tirée du tableau ci-dessus, nous pouvons voir que :

Le total de chaque observation moins la moyenne carré égale 320.

Pour calculer l'écart-type, on doit utiliser la formule qui suit :

Calcul de l'écart-type pour l'exemple 1 b.

Distribution de fréquences (variables discrètes)

Les formules pour la variance et l'écart-type changent légèrement si l'on groupe des observations à l'intérieur d'un tableau de fréquences. On multiplie les écarts au carré par la valeur de chaque fréquence, puis on calcule le total de ces résultats.

Dans une distribution de fréquences, on définit la variance pour une variable discrète comme suit :

Formule pour calculez la variance d'une variable discrète dans une tableau de fréquences.

L'écart-type d'une variable discrète se définit comme suit :

Formule pour calculez l'écart-type d'une variable discrète dans une tableau de fréquences.

Exemple 2 – Écart-type calculé à l'aide d'un tableau de fréquences

On a demandé à 30 fermiers combien de travailleurs agricoles ils embauchent durant des récoltes typiques. Voici leurs réponses :

4, 5, 6, 5, 3, 2, 8, 0, 4, 6, 7, 8, 4, 5, 7, 9, 8, 6, 7, 5, 5, 4, 2, 1, 9, 3, 3, 4, 6, 4

Tableau 2.  Nombre de travailleurs agricoles embauchés durant des récoltes typiques par 30 fermiers
Travailleur (x) Comptage Fréquence (f) (xf) (x - la moyenne) (x - la moyenne)2 (x - la moyenne)2f
0 1 1 0 -5 25 25
1 1 1 1 -4 16 16
2 2 2 4 -3 9 18
3 3 3 9 -2 4 12
4 6 6 24 -1 1 6
5 5 5 25 0 0 0
6 4 4 24 1 1 4
7 3 3 21 2 4 12
8 3 3 24 3 9 27
9 2 2 18 4 16 32
    30 150     152

Pour calculer la moyenne :

Calcul de la moyenne pour exemple 2.

Pour calculer l'écart-type :

Calcul de l'écart-type pour exemple 2.

Exemple 3 – Écart-type des variables groupées (continues ou discrètes)

On a demandé à un groupe de 220 élèves de 10e année combien d'heures ils ont regardé la télévision chaque semaine. Leurs réponses ont été consignées dans le tableau ci-dessous. À l'aide de cette information, calculez la moyenne et l'écart-type des heures pendant lesquelles les 220 élèves ont regardé la télévision.

Tableau 3.  Nombre d'heures pendant lesquelles les 220 élèves ont regardé la télévision
Heures Nombre d'élèves
10 à 14 2
15 à 19 12
20 à 24 23
25 à 29 60
30 à 34 77
35 à 39 38
40 à 44 8
  1. Premièrement, en utilisant le nombre d'élèves comme fréquence, trouvez le point milieu des intervalles de temps.
  2. Calculez maintenant la moyenne à l'aide du point milieu (x) et de la fréquence (f).

Nota : Dans cet exemple, la variable continue utilisée a été arrondie au nombre entier le plus près. Le groupe 10 à 14 est en fait 9,5 à 14,499 (puisque 9,5 est arrondi à 10 et 14,499 à 14. La longueur de l'intervalle est 5, alors que le point milieu se situe à 12 (9,5 + 2,5 =12).

Calcul de la moyenne pour exemple 3.

6 560 = (2 X 12 + 12 X 17 + 23 X 22 + 60 X 27 + 77 X 32 + 38 X 37 + 8 X 42)

Calculez ensuite les nombres pour les formules xf, (x - la moyenne), (x - la moyenne)2 et (x - la moyenne)2f.

Ajoutez-les au tableau de fréquences ci-dessous.

Tableau 4. Nombre d'heures passées devant la télévision
Heures Point milieu (x) Fréquence (f) xf (x - la moyenne) (x - la moyenne)2 (x - la moyenne)2f
10 à 14 12 2 24 -17,82 317,6 635,2
15 à 19 17 12 204 -12,82 164,4 1 972,8
20 à 24 22 23 506 -7,82 61,2 1 407,6
25 à 29 27 60 1 620 -2,82 8,0 480,0
30 à 34 32 77 2 464 2,18 4,8 369,6
35 à 39 37 38 1 406 7,18 51,6 1 960,8
40 à 44 42 8 336 12,18 148,4 1 187,2
    220 6 560      8 013,2

Exemple 4 – Écart-type

Utilisez l'information fournie dans le tableau ci-dessus pour trouver l'écart-type.

Calcul de l'écart-type en utilisant les données de tableau 4.

Nota : Quand on groupe une variable par intervalle de classe, on suppose que toutes les observations à l'intérieur de chaque intervalle sont égales au point milieu de l'intervalle. Ainsi, on ne tient pas compte de la dispersion des observations à l'intérieur de chaque intervalle, ce qui fait que l'écart-type est toujours inférieur à la valeur réelle. On devrait donc le considérer comme une approximation.

Exemple 5 – Écart-type

En supposant que la distribution de fréquences est à peu près normale, calculez l'intervalle à l'intérieur duquel 95 % des observations incluses dans l'exemple précédent devraient se situer.

la moyenne = 29,82, s = 6,03

Calculez l'intervalle à l'aide de la formule suivante : la moyenne - 2s < x < 2s + la moyenne

29,82 - (2 X 6,03) < x < 29,82 + (2 X 6,03)

29,82 - 12,06 < x < 29,82 + 12,06

17,76 < x < 41,88

Cela signifie une certitude d'environ 95 % qu'un élève passera entre 18 heures et 42 heures devant la télévision.