Prédiction et recherche
Types de données
Types de diagrammes
Mesures de tendance centrale : moyenne, médiane et mode
Tel que mentionné dans l'introduction, les recherches statistiques débutent parfois par une simple question d'un élève, laquelle amène la classe à recueillir des données primaires qui pourront y répondre. D'autres fois, on dispose d'un ensemble de données secondaires qui peut mener les élèves à se poser des questions intéressantes.
Dans un cas comme dans l'autre, les élèves comprennent mieux les données s'ils sont amenés à réfléchir au sujet des réponses possibles avant, pendant et après la collecte des données. Les élèves doivent apprendre à prédire la réponse et à faire une recherche pour la vérifier.
Une fois la question posée, les élèves doivent commencer à réfléchir à la façon dont ils peuvent trouver la réponse. On peut commencer en demandant aux élèves de prédire ou de supposer ce que la réponse sera selon eux, puis à déterminer de quelle façon ces hypothèses mènent à une recherche sur le problème.
Considérons la question de recherche suivante : Le temps consacré à jouer à des jeux d'ordinateur affecte‑t‑il les notes scolaires?
Les élèves vont tendre à se regrouper d'abord en un camp du « non » et en un camp du « oui ». En leur demandant d'expliquer leurs réponses, vous les encouragerez à réfléchir aux conditions qu'ils rattacheraient à leur réponse.
Ils peuvent par exemple avancer que la réponse dépend de l'âge ou du sexe des élèves. Ou encore, ils diront que le temps consacré aux leçons et aux devoirs a lui aussi un effet sur les notes, tout comme celui consacré aux jeux d'ordinateur. Cette idée peut les amener à inclure dans leur enquête des questions sur les leçons et les devoirs en plus de celles sur les jeux d'ordinateur. Ainsi, en réfléchissant à leurs prédictions initiales, ils en déduiront les étapes de la recherche.
De plus, lorsque vous demandez aux élèves de prévoir la réponse avant de faire leur recherche, vous les aidez à s'apercevoir des idées erronées et à les corriger au moment de leur collecte de données.
Les questions particulières produisent des types particuliers de données, lesquelles à leur tour se prêtent à un type particulier de diagramme.
On distingue deux principaux types de données : les données catégoriques et les données numériques.
La question « Quelle couleur sont vos cheveux? » produit des données catégoriques qui se classent parmi les catégories « bruns », « blonds », « noirs », « roux » ou « d'une autre couleur ». Les données catégoriques peuvent être subdivisées en deux sous‑types : les données nominales ou ordinales.
Le tableau ci‑dessous présente chaque sous‑type et les types de diagramme qui y sont associés.
Types de données |
Sous-types |
Exemples de la base de données Recensement à l'école |
Diagrammes pertinents |
|---|---|---|---|
| Catégoriques : Les données se classent dans diverses catégories de réponses à une question. | Données nominales : Elles sont désignées au moyen de noms particuliers ou de catégories particulières. Ces données ne peuvent être organisées dans aucun autre ordre « naturel ». | Sexe : masculin ou féminin | Diagramme à bandes, diagramme circulaire, pictogramme. |
| Matières préférées : mathématiques, histoire, éducation physique, musique, etc. | |||
| Couleur des yeux : bruns, bleus, verts ou autre couleur | |||
| Animaux de compagnie : chats, chiens, oiseaux, poissons, etc. | |||
| Données ordinales : Elles sont désignées au moyen de catégories pouvant être classées dans un ordre particulier ou d'une certaine « façon naturelle ». | Pression due au travail scolaire : aucune, très peu, pression moyenne, beaucoup | Diagramme à bandes, diagramme circulaire pictogramme. |
La question « Combien de personnes habitent dans votre ménage? » produit des données numériques. Celles-ci peuvent être subdivisées en deux sous‑types : les données discrètes ou continues.
Le tableau ci‑dessous présente chaque sous‑type et les types de diagramme qui y sont associés.
Types de données |
Sous-types |
Exemples de la base de données Recensement à l'école |
Diagrammes pertinents |
|---|---|---|---|
| Données numériques : Elles sont représentées par des nombres réels. On les appelle également données quantitatives. | Données discrètes : Elles comprennent un nombre déterminé de réponses différentes. Par exemple, le nombre de personnes faisant partie d'un ménage représente une donnée discrète parce qu'on peut seulement répondre au moyen d'un nombre entier. On ne peut inclure comme réponses possibles toutes les décimales ou les fractions qui se situent entre ces nombres entiers. Par exemple, un ménage ne peut pas compter 2,5 ou 3,75 personnes. | Âge en années : 7, 8, 9, 10, 11, etc. | Diagramme à bandes, diagramme linéaire, diagramme circulaire, histogramme. |
| Nombre de personnes faisant partie d'un ménage : 1, 2, 3, 4, 5, etc. | |||
| Nombre de jours durant lesquels on s'est adonné à une activité physique intense la semaine dernière : 0, 1, 2, 3, 4, 5, 6, 7, etc. | |||
| Nota – Parfois les nombres correspondent à des échelles de réponses (p. ex. : 0 = pas du tout, 1 = très peu, 2 = quelques-uns, etc.). On considère alors ces réponses comme des données catégoriques ordinales plutôt que comme des données numériques, même si elles sont représentées par un nombre. | Données continues : Elles peuvent comprendre un nombre infini de réponses différentes. Les réponses possibles sont infinies puisqu'elles peuvent inclure des valeurs décimales. Par exemple, la taille d'un élève peut être de 1,57923 mètres. | Taille, dimension des bras étendus, circonférence du poignet : Il est impossible d'énumérer toutes les possibilités. Nota – Dans l'enquête Recensement à l'école, les élèves doivent arrondir leurs réponses au centimètre ou au millimètre près, de sorte que leurs réponses constituent en fait des données discrètes. | Diagramme linéaire, histogramme. |
Nota – Pour faciliter le traitement des données continues, on les regroupe souvent en « intervalles de classes ». Le regroupement des données fait partie du processus d'organisation des données afin de rendre l'information utile. Par exemple, au lieu de représenter toutes les tailles d'élèves mesurées dans une classe, il est plus efficace de représenter des catégories regroupées telles que : 120 à 129 cm, 130 à 139 cm, 140 à 149 cm, etc. Les données discrètes peuvent être regroupées ou non. Le regroupement des données facilite leur traitement, mais lorsqu'il s'agit d'un nombre restreint de réponses, on peut aussi bien les laisser non regroupées. |
|||
Les diagrammes à bandes présentent des données catégoriques ou numériques. Les données numériques peuvent être non regroupées (si elles comprennent un nombre restreint de réponses) ou être regroupées en intervalles de classes.
Les diagrammes à bandes sont constitués d'un axe comportant des bandes horizontales ou verticales munies d'étiquettes. Les diagrammes à bandes verticales sont également appelés diagrammes à colonnes. Les bandes illustrent les fréquences des différentes réponses. Les nombres figurant sur l'axe des x d'un diagramme à bandes horizontales ou sur l'axe des y d'un diagramme à bandes verticales sont appelés l'échelle.
Lorsqu'on crée des diagrammes à bandes, on représente chaque catégorie ou valeur au moyen d'une bande verticale ou horizontale. La hauteur ou la longueur de la bande représente le nombre d'unités ou d'observations dans cette catégorie (c.‑à‑d. leur fréquence).
Il est conseillé de ne pas créer des diagrammes à bandes en trois dimensions, car l'ajout de la profondeur peut rendre plus difficile la lecture des données.


Les diagrammes linéaires ou à ligne brisée comparent deux variables : l'une est placée sur l'axe des x (horizontal) et l'autre, sur l'axe des y (vertical). Le diagramme montre le rapport entre les variables ou les variations entre elles au moyen d'un trait continu entre tous les points.

Les diagrammes linéaires servent également à révéler les tendances dans le temps. Alors que les diagrammes à bandes révèlent une variation de l'ampleur, les diagrammes linéaires indiquent un changement d'orientation. Ces derniers sont populaires en vue de montrer la variation des données dans le temps parce qu'ils révèlent clairement les tendances tout en étant faciles à créer.
Lorsqu'un diagramme linéaire illustre une tendance dans le temps, l'axe des y indique habituellement la quantité (p. ex. dollars, litres) ou le pourcentage, tandis que l'axe des x mesure les unités de temps.

Un diagramme circulaire ou à secteurs constitue une façon de résumer un ensemble de données catégoriques ou de présenter les différentes valeurs d'une variable donnée (p. ex. la répartition en pourcentage). Ce type de diagramme est formé d'un cercle subdivisé en segments, chaque segment représentant une catégorie particulière et son pourcentage de l'ensemble. La surface de chaque segment représente une proportion du cercle qui est identique à la proportion de la catégorie par rapport à l'ensemble des données.
Il est conseillé d'utiliser les diagrammes circulaires lorsque le nombre de catégories est restreint – idéalement pas plus de six – sans quoi le tableau obtenu sera trop difficile à comprendre. N'utilisez jamais un diagramme circulaire tridimensionnel, même lorsqu'un logiciel de tableur l'offre comme option de diagramme. L'image tridimensionnelle est trompeuse parce que la surface de certains segments peut sembler plus importante que les proportions réelles qu'ils représentent.

Un diagramme figuratif ou à pictogramme emploie des symboles pour faire ressortir la signification des données catégoriques. Il ressemble à un diagramme à bandes du fait que chaque rangée horizontale ou verticale représente la fréquence ou le nombre de réponses dans chaque catégorie. Il est conseillé d'utiliser les diagrammes figuratifs avec prudence parce que les figures peuvent, accidentellement ou volontairement, donner une fausse représentation des données.
Par exemple, le symbole du biscuit dans le diagramme figuratif ci‑dessous représente deux élèves et le demi‑biscuit en représente un. D'autres types de diagrammes figuratifs peuvent utiliser un symbole dont les dimensions augmentent ou diminuent pour représenter les variations des données. En pareil cas, il faut veiller à ce que les dimensions ou l'étendue (surface totale) du symbole soient proportionnelles aux variations qu'il représente.

On utilise un histogramme pour résumer des données numériques continues ou discrètes mesurées dans une échelle d'intervalle. On y a souvent recours pour illustrer les caractéristiques principales de la répartition des données. L'histogramme subdivise la fourchette des valeurs possibles en catégories ou en groupes. On construit, pour chaque groupe, un rectangle dont la longueur de la base correspond à la fourchette des valeurs du groupe en question et dont la hauteur est proportionnelle au nombre d'observations ou à la fréquence du groupe. En d'autres termes, les rectangles auront des hauteurs différentes. L'histogramme a un aspect semblable à un diagramme à bandes verticales, mais lorsque les variables sont continues, il n'existe aucun écart entre les bandes. Toutefois, lorsque les variables sont discrètes, on devrait laisser des écarts entre les bandes.


On utilise les nuages de points pour représenter la relation entre deux variables au moyen de paires ordonnées tracées sur un plan cartésien. Les points ne sont pas reliés; l'image qui en résulte indique le type et l'intensité de la relation entre les variables. On peut tracer une droite de meilleur ajustement entre les points lorsqu'il existe une relation. Les nuages de points peuvent illustrer les notions suivantes : la corrélation statistique, la relation positive ou négative entre les variables, les tendances non linéaires, la répartition des données et les valeurs aberrantes.

La moyenne, la médiane et le mode servent à dégager les caractéristiques d'un ensemble de données au moyen d'un seul nombre. Par exemple, une classe typique de Secondaire I (7e année) pourrait être composée d'élèves de 12 à 15 ans. Cependant, si l'on trouve qu'une classe particulière compte plus d'élèves de 13 ans que de tout autre groupe d'âge, on utilise l'âge modal de 13 ans pour représenter l'âge des élèves de cette classe. Selon la situation, la meilleure description d'un ensemble de données particulier pourrait être soit la moyenne, la médiane ou le mode.
On calcule la moyenne en additionnant toutes les données et en divisant la somme par le nombre total de données.
La médiane est le nombre du milieu lorsque les données de l'ensemble ont été classées en ordre numérique : exactement la moitié des données se situent alors au‑dessus de la médiane et la moitié se situent au‑dessous. Il faut donc trier les données dans un ordre ascendant ou descendant afin d'en déterminer le nombre du milieu. Si l'ensemble compte un nombre pair de données, il faut calculer la moyenne des deux nombres du milieu pour trouver la médiane.
Le mode est le nombre observé le plus fréquemment dans l'ensemble. Lorsque deux nombres sont observés aussi souvent l'un et l'autre, les données sont bimodales.
Dans une distribution normale, la moyenne, la médiane et le mode ont des valeurs identiques. Par exemple, l'ensemble de données qui suit montre une distribution normale :
Ensemble de données : 14, 14, 13, 15, 15, 14, 13, 14, 13, 15
Moyenne : (14 + 14 + 13 + 15 + 15 + 14 + 13 + 14 + 13 + 15) / 10 = 14
Médiane : la médianne est 14 (13, 13, 13, 14, 14, 14, 14, 15, 15, 15)
Mode : le nombre observé le plus fréquemment est 14