1 Les données, l'information statistique et les statistiques
1.1 Définitions

Début du texte

Les données, l’information statistique et les statistiques sont étroitement liées. Pour naviguer à travers l’océan de plus en plus vaste des informations produites par la société moderne, il est important de comprendre les différences clés entre ces trois concepts. Les données sont les matériaux bruts pour la production d’information statistique et les statistiques sont un type particulier d’information statistique.

Données

Les données sont des faits, des chiffres, des observations ou des enregistrements qui peuvent se présenter sous la forme d’image, de son, de texte ou de mesure physique (p. ex. distance, poids, longueur d’onde). Les données peuvent être collectées et traitées dans le but de tirer des conclusions. Les données peuvent provenir de plusieurs sources et elles peuvent être divisées en deux groupes en fonction de la forme qu’elles prennent : les données structurées et les données non structurées.

Les données structurées sont organisées en éléments prédéfinis, chacun correspondant à un concept ou à un élément d'information spécifique. Un ensemble de données collectées en utilisant un questionnaire ou un formulaire à remplir est un bon exemple de données structurées : les questions représentent des concepts séparés et bien définis. Dans le cas d’une question fermée, la réponse se trouvera parmi l’une des catégories prédéfinies pour ce concept. Dans le cas d’une question ouverte, la réponse pourrait prendre la forme d’une valeur numérique ou d’un texte. Si une valeur a été obtenue pour chacun des concepts ou éléments d’information, les données sont complètes. Sinon, elles contiennent des valeurs manquantes.

Regardons par exemple la manière dont chaque colonne du tableau 1.1.1 sur les universités canadiennes est en lien avec un concept distinct :


Tableau 1.1.1
Exemple de données structurées
Sommaire du tableau
Le tableau montre les résultats de Exemple de données structurées. Les données sont présentées selon Nom de l’établissement (titres de rangée) et Ville, Province, Date de fondation et Nombre d’étudiants (figurant comme en-tête de colonne).
Nom de l’établissement Ville Province Date de fondation Nombre d’étudiants
Université Laval Québec QC 1852 43 000
Université de Waterloo Waterloo ON 1955 30 000
Université Dalhousie Halifax NE 1818 18 000
Université Simon Fraser Burnaby CB 1965 30 000

Chaque rangée présente les valeurs des variables d’une unité d’observation pour laquelle l’information a été recueillie. Les rangées sont désignées comme des observations ou des enregistrements. Les concepts présentés dans chaque colonne sont souvent appelés des variables. Les ensembles de données sont des regroupements de données qui ont les mêmes définitions pour les unités d’observation et les variables.

Pour être traitées et analysées, les données structurées doivent être compilées dans une structure de données digitale qui s’aligne sur les concepts prédéfinis ou les variables, telles qu’une feuille de calcul, une base de données ou un fichier texte délimité. Les données peuvent ensuite être importées dans un logiciel statistique qui permet à l’utilisateur des données de les transformer, de les agréger, de procéder à des opérations mathématiques sur les données ou de les visualiser.

Les données non structurées sont n’importe quelles données qui ne sont pas organisées selon un modèle prédéfini. Pour produire de l’information statistique à partir des données non structurées, un traitement additionnel des données est nécessaire pour organiser l’information. Le tableau 1.1.2 présente la façon dont un texte, une image ou un enregistrement vocal peuvent être convertis en données structurées pour l’analyse textuelle, la reconnaissance des images et la reconnaissance du langage.


Tableau 1.1.2
Transformer des données non structurées en données structurées
Sommaire du tableau
Le tableau montre les résultats de Transformer des données non structurées en données structurées. Les données sont présentées selon Données non structurées (titres de rangée) et Traitement et Données structurées(figurant comme en-tête de colonne).
Données non structurées Traitement Données structurées
Un texte Découpage du texte en une liste de mots; agrégation pour compter le nombre d’occurrences de chaque mot; utilisation de dictionnaires et de règles pour classer les mots Une feuille de calcul : chaque rangée correspond à un mot distinct, trois colonnes présentent le mot, la fréquence du mot dans le texte et la catégorie du mot
Une image Attribution d’un code RVB à chaque pixel; segmentation de l’image en groupes de pixels en fonction des composantes rouges (R), vertes (V) et bleues (B). Une base de données : chaque enregistrement correspond à un groupe de pixels et les champs résument les composantes de couleur de chaque groupe.
L’enregistrement de la voix d’une personne Segmentation de l’enregistrement en sons distincts; mesure des durées et fréquences de chaque son. Une liste des segments accompagnés de leur durée et de leur fréquence.

Avec l’utilisation accrue des ordinateurs et des téléphones intelligents dans tous les domaines de la vie quotidienne, une partie énorme de l’information qui est créée aujourd'hui est non structurée. Évaluer le potentiel de ces données et trouver des façons innovantes de les rassembler, les traiter et les analyser pour produire de l’information statistique de valeur est l’un des grands défis de la révolution des données.

Mais quelle est la différence entre l’information statistique et les données?

Information statistique

L’information statistique est constituée de données qui ont été enregistrées, classées, organisées, reliées ou interprétées à l’intérieur d’un cadre conceptuel de façon à ce qu’un sens en émerge. L’information statistique qui est présentée aux utilisateurs de l’information doit les aider à comprendre l’histoire que les données racontent, mais également leur communiquer la qualité de l’information présentée. Elle peut être présentée dans des formats variés : textes, tableaux, graphiques, infographies, vidéos ou même bases de données.

Plusieurs exemples d’information statistique produite à Statistique Canada seront présentés à la page suivante, mais il est d’abord important de comprendre une étape incontournable du processus de production l’information statistique : l’utilisation des statistiques!

Statistiques

Les statistiques sont généralement en lien avec les données numériques. Le terme statistique peut faire référence à la discipline scientifique qui s’intéresse à l’analyse des données numériques. Les statistiques, quant à elles, sont un type d'information obtenu en soumettant les valeurs à des opérations mathématiques. Avant tout, l’objectif des statistiques est de fournir une information utile aux utilisateurs par le moyen des nombres.

Les types de statistiques les plus communément utilisées pour résumer l’information statistique sont appelés les statistiques descriptives. Pour les variables numériques, les mesures de tendance centrale correspondent à la valeur la plus représentative des unités trouvées dans un ensemble de données. Les mesures de dispersion  correspondent à l’étalement des valeurs autour de la tendance centrale. Pour les variables catégoriques, les distributions de fréquences sont utilisées pour résumer les données. Les proportions, les ratios et les taux sont également des statistiques descriptives utiles pour l’analyse des données.

Lorsqu’un ensemble de données contient sur chaque ligne des statistiques qui résument l’information de plusieurs unités d’observation, il s’agit d’un ensemble de données agrégées. À l’opposé, lorsque l’ensemble de données contient l’information d’une seule unité d’observation sur chaque ligne, il s’agit d’un ensemble de microdonnées.


Date de modification :