Exactitude et validation des données : méthodes pour assurer la qualité des données

Numéro de catalogue : 892000062020008

Date de diffusion : le 23 septembre 2020

L'exactitude est l'une des six dimensions de la qualité des données qui sont prises en compte à Statistique Canada. Les données sont exactes lorsqu'elles décrivent adéquatement les phénomènes qu’elles sont conçues pour mesurer ou représenter.

Avant d'utiliser des données, nous devrions les explorer pour en apprendre davantage sur les variables et les concepts, et aussi pour découvrir si elles comportent des erreurs, des incohérences ou des lacunes. Cette vidéo examine différentes façons d’explorer l'exactitude des données.

Étape du parcours des données
Explorer, nettoyer, décrire
Compétence des données
  • Découverte des données
  • Évaluation de la qualité des données
  • Nettoyage des données
Audience
Essentiel
Conditions préalables suggérées
s.o.
Durée
12:10
Coût
Gratuit

Voir la vidéo

Exactitude et validation des données : méthodes pour assurer la qualité des données - Transcription

(Le symbol de Statistics Canada et le mot-symbol du Canada est présent avec le titre suivant: « Exactitude et validation des données : méthodes pour assurer la qualité des données »)

Exactitude et validation des données : Méthodes pour assurer la qualité des données

L'évaluation de l'exactitude des données, est un aspect important du processus d'analyse.

Objectifs d'apprentissage

L'exactitude est l'une des 6 dimensions de la qualité des données qui sont pris en compte à statistique Canada. L'exactitude s'entend de la mesure dans laquelle les données rendent compte de la vérité ou de ce qui s'est réellement produit. Dans cette vidéo, nous présenterons des méthodes pour mettre en lumière le concept d'exactitude sur le plan de la validité et de la précision. Nous discutons également des méthodes de validation et de vérification de l'exactitude des valeurs de données.

Étapes du cheminement des données

(Text à l'écran: Étapes du cheminemnt des données est appuyé par une base d'intendance, de métadonnées, de normes et de qualité)

(Diagramme du Cheminement des données: Étape 1 - Chercher, Receuillir, Protéger; Étape 2 - explorer, nettoyerm, décrire; Étape 3 - analyser, modéliser; Étape 4 - Raconter l'histoire. Le cheminement des données est supporté par une base d'intendance, de métadonnées, de normes et qualité.)

Ce diagramme est une représentation visuelle des étapes permettant de transformer les données en connaissances.

Étape 2: Explorer, nettoyer et décrire

(Diagramme du Cheminement des données avec un attention sur l'Étape 2 - explorer, nettoyerm, décrire.)

Les données sont exactes lorsqu'elle décrit adéquatement les phénomènes qu'elles sont conçues pour mesurer ou représentés. Avant d'utiliser des données, nous devrions les explorer pour en apprendre davantage sur les variables et les concepts et aussi pour découvrir si elle comporte des erreurs, des incohérences ou des lacunes. Cette vidéo examine différentes façons d'explorer l'exactitude des données.

Qu'entend-on par des données « exactes »?

Qu'entend t-on par des données exactes? Des données exactes reflètent la réalité, autrement dit, leurs valeurs sont valides, ne sont ni absentes ni manquantes et se trouvent dans une fourchette valide. Des données exactes sont également correctes. Examinons d'abord le concept de données valides. L'une des méthodes pour explorer la validité de données est d'effectuer ce qu'on appelle une analyse VIMA. Cet acronyme signifie Valides, Invalides, Manquantes et Aberrantes.

Valeurs invalide

(Tableau contenant une liste de numéro d'identification du ménage. Des détails sur les dépenses totales pour la nourriture et les dépenses totales pour le logement sont révéller pour chaque ménage. Une des céllules contienne le nom d'une couleur au lieu d'une valeur monétaire.)

Sur la diapositive précédente, nous avons défini qu'une donnée valide n'est ni absente ni manquante et qu'elle se situe à l'intérieur d'une fourchette valide de valeur. Inversement, une donnée invalide affiche des valeurs qui paraissent impossible. Un exemple serait une variable qui devrait afficher un montant en dollars comme pour des dépenses liées au logement, mais qui indique plutôt la valeur bleu. Cette réponse n'a aucun sens.

Valeurs manquantes

(Tableau similaire à la dernière diapositives. La seule différence est qu'au lieu d'un nom d'une couleur, il y a maintenant une cellule vide.)

Les valeurs sont manquantes lorsqu'une cellule est laissée vide. Par exemple, on s'attend à ce qu'il y ait un 0 ou un chiffre quelconque pour la valeur des dépenses totales.

Valeurs aberrantes

(Tableau qui liste le nom d'un groupe d'individues. Associer à chaque noms sont les profession et l'âge. Dans la colonnes des âges, on y retrouve un individue avec l'âge de 103 ans et un autre avec un âge de 301 ans.)

Les valeurs aberrantes sont extrêmement basses ou extrêmement haute par rapport à ce à quoi on s'attendrait. Certaines valeurs aberrantes peuvent être véritable. Une personne peut être âgée de 103 ans, bien que ce soit assez rare. Dans d'autres cas, les valeurs aberrantes sont également Invalides comme une valeur de 301 pour indiquer l'âge d'un individu vivant.

Analyse VIMA

L'une des façons d'effectuer une analyse VIMA consiste à produire une distribution de fréquence des variables clés et à examiner les proportions de valeurs valides invalides, manquantes et aberrantes. Quelle proportion des valeurs valides est acceptable? Est ce 100 pour 100 ou plus bas? Examiner la fourchette de valeur pour les variables clés. En attenant pas compte des valeurs manquantes Invalides pour un instant, la fourchette et la distribution des valeurs sont-elles réalistes? Lorsque les valeurs sont invalides, où manquantes est-il facile de déterminer si elles devraient indiquer 0 sans objet ou sinon une autre valeur? Une autre façon d'explorer la validité des données consiste à faire appel à des techniques de visualisation de données comme celles de les examiner sous forme de graphiques. C'est là une façon simple et rapide de détecter les tendances ou les anomalies dans les données. Il existe des outils logiciels pour détecter les valeurs aberrantes et visualiser les données. N'oubliez pas une valeur inhabituelle n'est pas nécessairement erronée.

Example: Détecter des valeurs invalides

(Diagramme à barre présentant les différent types de chaussures et les nombre de vente associer à chaqu'une. De la gauche, les types sont: Bottes d'hiver; Bottes en caoutchouc; Sandales; Chaussures de course; Parapluies.)

Dans cet exemple fictif, nous utilisons un diagramme à barres, une méthode de visualisation toute simple pour examiner la distribution de fréquence de différents types de chaussures vendues en ligne. Les hauteur des barres semblent toutes se situer à l'intérieur de la même fourchette. Toutefois, nous remarquons sur l'axe horizontal que l'une des barres concerne des parapluies. Un parapluie n'a rien à voir avec des articles de chaussure. C'est une donnée invalide. Une enquête plus poussée est nécessaire pour déterminer si la donnée indiquée par la barre représente effectivement un autre type de chaussures et que le terme parapluie a été attribué par erreur. Ou si cette donnée sur des parapluies s'est retrouvée par erreur dans le tableau des ventes de chaussures.

Exemple: Détecter des valeurs manquantes

(Tableu présentant la dsitribution des pommes (A), Orange (O) et Bananes (B). Les colonnes qui suivent représente la fréquence des valeurs = 0 (A=0; O=0; B=1), 3 (A=1; O=0; B=0), 5 (A=0; O=2; B=0), 8 (A=0; O=0; B=2). La dernière colonne représente la fréquence des valeurs manquantes (A=5; O=7; B=6).)

Dans cet exemple, nous avons créé un tableau de distribution des fréquences de valeur pour 3 variables, pommes, oranges et bananes. La colonne à l'extrême droite montre combien de fois il manquait des valeurs pour chacune de ces 3 variables. N'oubliez pas que des valeurs manquantes ne sont pas la même chose que des valeurs égales à 0. Dans cet exemple, il y a beaucoup de valeur manquante par rapport au nombre de valeur non manquante. Nous tenterions probablement de remplir ces trous avant d'utiliser ces données.

Exemple: Correction des valeurs manquantes

(Texte sur l'écran: Il y a de nombreuses valeurs manquantes dans ce tableau. Certaines sont faciles à entrer, par simple addition ou soustraction. Pour d'autre par contre, il est nécessaire de formuler certaines hypothèses ou de trouver des renseignements supplémentaires.)

(Tableau présenter sur l'écran est un réarangement du dernier tableau ou chaque colonne représente la ligne du dernier tableau, les Pommes, les Oranges et le total de fruits (TF). Les valeur sont présenter comme suit: Ligne 1 (A=3; O=5; TF=-); Ligne 2 (A=-; O=5; TF=8); Ligne 3 (A=-; O=-; TF=0); Ligne 4 (A=-; O=-; TF=8).)

Voici comment corriger les valeurs aberrantes relevées à la diapositive précédente. Dans ce tableau des données réelles des valeurs, on voit où se situe les valeurs manquantes. À la première ligne, il est facile de déterminer que la valeur manquante du nombre total de fruits devrait être 8 étant donné qu'il y a 3 pommes et 5 orange. De la même façon, il n'est pas difficile de comprendre que la valeur manquante à la 2e ligne pour les pommes et de 3. Cependant, à la 3e ligne, la valeur 0 pourrait être correcte. Au quel cas les valeurs manquantes pour les pommes et les oranges devrait également être 0. Toutefois, si 0 n'est pas la bonne valeur, on n'est pas en mesure de déterminer quelle serait la valeur des 3 variables. À la 4e ligne si 8, est effectivement la valeur du total, alors on a pas assez d'informations pour connaître la valeur des pommes et celle des oranges. On sait seulement qu'elle se situe entre 0 et 8.

Exemple: Détection des valeurs aberrantes

(Un nuage de point se retrouve dans un graphique où tout les points, à l'exception d'un point rouge, produisent une tendance linéaire. Ce dernier est représenter par 2 ligne de tendance.)

(Texte sur l'écran: Cette valeur est plus éloignée de toutes les autres valeurs de données que ce à quoi l'on pourrait s'attendre.)

Dans cet exemple inventé les points de données représentées par des points verts et rouges ont été tracées sur un axe horizontal et un axe vertical. Deux méthodes différentes ont été utilisées pour estimer la tendance centrale des valeurs des données. Ces tendances sont représentées par la droite rouge et la droite bleu. La plupart des valeurs de données se trouvent sur les 2 droite d'ajustement ou à proximité de celles-ci. Par contre, le point rouge trouve vraiment loin des droites. Il s'agit d'une valeur aberrante. Il est nécessaire de mener une enquête plus approfondie pour déterminer ce qui distingue tellement ce point de données et décider ce qu'il convient d'en faire. Certaines valeurs aberrantes sont corrects, même si elles sont inhabituelles.

Explorer l'exactitudes des données

(Texte sur l'écran: Microdonnées: Par exemple, une liste de personnes comprenant leur profession et leur date de naissance. Macrodonnées: Ces données sont moins détaillées, un peu comme lorsque l'on fait un zoom arrière avec un appareil photo. Par exemple, les microdonnées générées à partire d'une liste de personnes, de leur profession et de laeur date de naissance pourraient être un dénombrement de personnes classées selon leurs âges et leurs catégories professionnelles. Les microdonnées sont plus granulaires que les macrodonnées, elles sont à une échelle plus détaillée.)

Comme cela a été mentionné précédemment, les données exactes sont à la fois valide et correctes. Nous avons parlé de l'analyse VIMA comme façon d'explorer la validités des données. Il s'agit maintenant de mettre l'accent sur l'exactitude des données. Mais tout d'abord, il faut distinguer le fait d'examiner des valeurs de données individuelles ou microdonnées et celui d'étudier ces mêmes valeurs, résumer à un niveau plus élevé, soit les macrodonnées. Les microdonnées sont plus granulaire que les macrodonnées. Elles sont à une échelle plus détaillées.

Explorer l'exactitude des données

(Exemple 2: Une personne âgée de 12 ans possède une maîtrise en biologie, est mariée et traville à l'Université du Manitoba. Ext-ce plausible?)

L'une des façons d'explorer l'exactitude des données consiste à comparer les données avec d'autres renseignements connexes. On pourrait examiner le caractère raisonnable des valeurs d'un seul enregistrement de données. Certaines variables devraient-elles, être logique si on les combinent? Par exemple, si on a un total, et les parties qui constituent ce total. La somme de ces parties est-elle exacte? Un autre exemple consiste à considérer l'âge actuel d'une personne et à le comparer au plus haut niveau de scolarité atteint à l'état matrimonial ou la situation d'emploi. Est-ce plausible?

Il est également possible d'examiner la concordance avec les normes. Au Canada par exemple, le premier caractère des codes postaux dépend de la province. Tous les codes postaux de Terre-Neuve et labrador commencent par la lettre A tous ceux de la nouvelle-écosse commence par la lettre B et ainsi de suite. Si ce n'est pas le cas, l'un des éléments d'informations et inexacte.

(Pour répondre à ces questions, il faut disposer de données fiables sur le monde réel.)

Une autre façon d'explorer l'exactitude des données consiste à comparer le contenu des données avec la situation dans le monde réel. Vous pourriez calculer des statistiques sommaires comme les totaux et les moyennes relatives aux ventes d'automobiles au Canada et établir des comparaisons entre les provinces ou au fil du temps. Les chiffres sont-ils plausibles? L'industrie automobile surveille t-elle ces chiffres? Et comment vos chiffres se comparent t-ils aux siens?

Conseils pour explorer l'exactitude des données: Partie 1

Voici quelques conseils pour faciliter les comparaisons. Avant d'essayer de comparer des valeurs de données, exprimez-les dans un format commun. La date du 12/6/2018 semblera différente si dans un cas, le mois est inscrit en premier et que dans un autre, c'est le jour qui l'est. En plus des formats normalisés utilisez des abréviations, des notions et des définitions conventionnelles dans la mesure du possible, au Canada par exemple, il existe un sigle à 2 lettres normalisés pour le nom des provinces et des territoires.

Conseils pour explorer l'exactitude des données: Partie 2

La visualisation des données est une excellente façon de repérer les anomalies dans les données. Avant de commencer, penser au degré d'inexactitude que vous pouvez tolérer dans les données. Qu'est-ce qui est considéré comme suffisant pour ce que vous voulez faire? Après avoir repérer les écarts, servez-vous de l'automatisation pour corriger les erreurs de façon efficace, uniforme et objective.

Description de l'exactitude des données

(Text on screen: Documentez clairement: Accroître la validité et l'exactitude des données constitue un moyen de nettoyer les données. Cette documentation pourrait présenter un intérêt pour: Les utilisateurs de données et les personnes qui devront explorer, nettoyer et décrire des données similaires.)

Avant d'utiliser les données ou de les transmettre aux intervenants qui le feront, assurez-vous de décrire l'exactitude des données. La documentation décrivant les données est parfois appelé métadonnées. Documenter la façon dont vous avez exploré la validité et l'exactitude des données et celles dont vous avez nettoyé ou amélioré les données. Les utilisateurs de données utiliserons ces renseignements pour savoir comment se servir des données de façon responsable.

Recap of key points

Cette vidéo présentait les concepts de base de l'exactitude et de la validation des données. L'analyse VIMA recommande l'utilisation de la distribution de fréquence pour des variables clés afin d'évaluer les proportions de valeurs valides invalides, manquantes et aberrantes. Les techniques de visualisation des données, l'utilisation de formats communs et l'automatisation permettent d'obtenir des résultats efficaces et correctes. De plus, une documentation claire est essentielle pour mieux comprendre les méthodes utilisées afin d'explorer et valider les données.

(Le mot-symbole « Canada » s'affiche.)

Qu'avez-vous pensé?

S'il vous plaît nous donner vos commentaires afin que nous puissions mieux fournir des produits qui répondent aux besoins de nos utilisateurs.

Date de modification :