3.4 Traitement
3.4.3 Vérification

Début du texte

Dans un monde idéal, les données seraient collectées sans aucune erreur. Malheureusement, les réponses, qu'elles proviennent d'enquêtes ou de fichiers administratifs, peuvent être manquantes, incomplètes ou incorrectes. La vérification des données est l'application de contrôles pour détecter les entrées manquantes, invalides ou incohérentes ou pour indiquer les enregistrements de données qui sont potentiellement erronés. Quel que soit le type de données avec lequel vous travaillez, certaines vérifications doivent être effectuées à différentes étapes ou phases de la collecte et du traitement des données. La vérification des données est décrite et illustrée ici en se concentrant sur les enquêtes, mais elle est aussi largement appliquée à d'autres sources de données, telles que les données administratives, pour assurer la qualité des données. 

La vérification des données commence par la question suivante : « Quelles pourraient être les causes des erreurs dans nos fichiers? » Il existe plusieurs situations où des erreurs peuvent se glisser dans les données, et la liste suivante en donne quelques-unes :

  • Un répondant pourrait avoir mal compris une question.
  • Un répondant ou un intervieweur pourrait avoir coché la mauvaise réponse.
  • Un codeur pourrait avoir mal codé ou mal compris une réponse écrite.
  • Un intervieweur pourrait avoir oublié de poser une question ou d'enregistrer la réponse.
  • Un répondant pourrait avoir fourni des réponses inexactes.
  • Certaines questions pourraient avoir été laissées en blanc.

Gardez toujours à l'esprit les objectifs de la vérification des données :

  • assurer l'exactitude des données,
  • établir la cohérence des données,
  • déterminer si les données sont complètes,
  • assurer la cohérence des données agrégées,
  • obtenir les meilleures données possible.

Appliquer les règles de vérification

Alors, comment procéder à la vérification des données? La première étape consiste à appliquer des règles, ou des facteurs à prendre en considération, aux données. Ces règles sont déterminées à partir de l’expertise d'un spécialiste du sujet, de la structure du questionnaire, de l'historique des données et de toute autre enquête ou tout autre ensemble de données connexe.

Les connaissances spécialisées peuvent provenir de diverses sources. Le spécialiste peut être un analyste qui a une grande expérience du type de données à éditer. Un expert peut également être l'un des commanditaires de l'enquête qui connaît bien les relations entre les données.

La présentation et la structure du questionnaire auront également un impact sur les règles de vérification des données. Par exemple, il est parfois demandé aux répondants d'ignorer certaines questions si celles-ci ne s'appliquent pas à eux ou à leur situation. Cette spécification doit être respectée et intégrée dans les règles de vérification.

Enfin, d'autres sources de données relatives au même type de variables ou de caractéristiques sont utilisées afin d'établir certaines des règles de vérification des données. Par exemple, les enquêtes auprès des entreprises collectent généralement des données financières sur les entreprises. Les mêmes informations peuvent être disponibles dans les déclarations fiscales de l'entreprise. Ainsi, les données fiscales peuvent être utilisées pour développer des règles de vérification pour valider les données d'enquête.

Types de vérification de données

Il existe plusieurs types de vérification de données couramment utilisés, notamment :

  • Les vérifications de validité portent sur un champ ou une cellule à la fois. Elles s’assurent que les identificateurs d'enregistrement, les caractères invalides et les valeurs ont été pris en compte, que les champs essentiels ont été remplis (par exemple, aucun champ de quantité n'est laissé blanc alors qu'un nombre est requis), que les unités de mesure spécifiées ont été correctement utilisées et que les données déclarées se situent dans l’étendue des valeurs autorisées (par exemple, l’heure de déclaration se situe dans les limites spécifiées). Dans le cadre de la collecte de données assistée par ordinateur, comme les questionnaires électroniques, la vérification des données en temps réel est généralement intégrée au système de collecte de données afin que la validité des données soit évaluée au fur et à mesure de leur collecte.
  • Les vérifications des doublons examinent un enregistrement complet à la fois. Ces types de vérification permettent d’éviter les enregistrements en double, en s'assurant qu'un répondant ou une unité d'enquête n'a été enregistré qu'une seule fois. Une vérification des doublons permet également de s'assurer que le répondant n'apparaît pas plus d'une fois dans l'univers de l'enquête, surtout s'il y a eu un changement de nom. Enfin, il garantit que les données n'ont été saisies qu'une seule fois dans le système.
  • Les vérifications de cohérence comparent différentes réponses d'un même enregistrement pour s'assurer qu'elles sont cohérentes entre elles. Par exemple, si une personne est déclarée comme appartenant au groupe d'âge des 0 à 14 ans, mais qu'elle déclare également être retraitée, il y a un problème de cohérence entre les deux réponses. Les vérifications interchamps sont une autre forme de vérification de la cohérence. Ces vérifications permettent de s'assurer que si un chiffre est déclaré dans une section, un chiffre correspondant est déclaré dans une autre.
  • Les vérifications historiques sont utilisées pour comparer les réponses de l'enquête actuelle et précédente. Par exemple, tout changement radical depuis la dernière enquête sera signalé. Les ratios et les calculs sont également comparés, et tout écart de pourcentage qui sort des limites établies sera noté et remis en question.
  • Les vérifications statistiques portent sur l'ensemble des données. Ce type de vérification n'est effectué qu'après que toutes les autres vérifications ont été appliquées et que les données ont été corrigées. Les données sont compilées et toutes les valeurs extrêmes, les données suspectes et les valeurs aberrantes sont rejetées.
  • Les vérifications diverses comprennent les dispositions spéciales de déclaration, les vérifications dynamiques propres à l'enquête, les vérifications de classification correcte, les changements d'adresse physiques, de lieux ou de contacts, et les vérifications de lisibilité (c'est-à-dire s'assurer que les chiffres ou les symboles sont reconnaissables et faciles à lire).

La vérification des données est influencée par la complexité du questionnaire. La complexité fait référence à la longueur, ainsi qu'au nombre de questions posées. Elle comprend également le détail des questions et l'éventail des sujets que le questionnaire peut couvrir. Dans certains cas, la terminologie d'une question peut être très technique. Pour ces types d'enquêtes, il peut y avoir des arrangements spéciaux pour les rapports et des vérifications spécifiques à l'industrie.

Niveaux de vérification des données

La vérification des données peut être effectuée manuellement, avec l'aide d'un programme informatique, ou une combinaison des deux techniques. Selon le support (électronique, papier) par lequel les données sont soumises, il existe deux niveaux de vérification des données : la microvérification et la macro-vérification.

  • La microvérification consiste à corriger les données au niveau de l'enregistrement. Ce processus vise à détecter les erreurs en vérifiant les enregistrements de données individuels. L'objectif à ce stade est de déterminer la cohérence des données et de corriger chaque enregistrement.
  • La macro-vérification vise à détecter également les erreurs, mais elle le fait par l'analyse des données agrégées (totaux). Les données sont comparées à celles d'autres enquêtes, de fichiers administratifs ou de versions antérieures des mêmes données. Ce processus permet de déterminer la comparabilité des données.

Date de modification :