Statistique Canada
Symbole du gouvernement du Canada

Liens de la barre de menu commune

Vérification des données

Il importe de vérifier les données avant de les présenter à titre d'information. Nous assurons ainsi l'exactitude, l'exhaustivité et la cohérence de l'information. Peu importe le type de données utilisées, toutes les enquêtes font l'objet de certaines vérifications. Cette vérification peut se faire manuellement, avec l'aide d'un programme informatique, ou en combinant ces deux méthodes, selon le support (électronique ou papier) sur lequel se trouvent les données.

Il existe deux niveaux de vérification — la microvérification et la macrovérification.

La microvérification consiste à corriger les données au niveau de l'enregistrement. Ce processus vise à détecter les erreurs par la vérification de chaque enregistrement de données. Il a pour but de déterminer la cohérence des données et de corriger chaque enregistrement.

La macrovérification vise aussi à détecter les erreurs, mais par l'analyse des données agrégées (totaux). Les données sont comparées à celles des autres enquêtes, des fichiers administratifs ou de versions antérieures des mêmes données. Ce processus détermine la compatibilité des données.

Nous pourrions poser la question « Pourquoi avons-nous des erreurs dans nos fichiers? » Des erreurs peuvent se glisser dans les données pour toutes sortes de raisons. Voici quelques exemples :

  • Un répondant peut avoir mal interprété une question.
  • Un répondant ou un intervieweur peut avoir coché la mauvaise réponse.
  • Un intervieweur peut avoir mal codé ou mal interprété une réponse écrite.
  • Un intervieweur peut avoir omis une question ou oublié d'écrire la réponse.
  • Un répondant peut avoir donné des réponses inexactes.

On doit toujours tenir compte des objectifs de la vérification de manière à :

  • assurer l'exactitude des données;
  • assurer la cohérence des données;
  • déterminer l'exhaustivité des données;
  • assurer la cohérence des données agrégées;
  • obtenir les meilleures données possibles.

Application des règles de vérification

Alors, comment cette vérification se fait-elle? La première étape consiste à appliquer aux données des « règles » (ou des facteurs dont il faut tenir compte). Ces règles résultent de la connaissance experte d'un spécialiste du domaine, de la structure du questionnaire, de l'historique des données et d'autres enquêtes ou données connexes.

La connaissance experte peut provenir de diverses sources. Le spécialiste peut être un analyste qui possède une vaste expérience du type de données vérifiées. Un expert peut aussi être un commanditaire de l'enquête, familier avec les relations entre les données.

La disposition et la structure du questionnaire influent aussi sur les règles de vérification. Par exemple, parfois les répondants doivent sauter certaines questions si elles ne s'appliquent pas à eux ou à leur situation. Il importe de respecter cette spécification et de l'intégrer dans les règles de vérification.

Enfin, d'autres enquêtes portant sur le même type de variables ou de caractéristiques servent à établir certaines règles de vérification.

Types de vérifications

Il existe plusieurs types de vérifications, dont :

  • la vérification de la validité, qui porte sur un champ ou une cellule à la fois. Elle fait en sorte que nous tenions compte des descripteurs d'enregistrement, des caractères et des valeurs invalides; que les champs obligatoires aient été remplis (p. ex., aucun champ de quantité ne demeure vierge si un nombre est requis); que nous ayons bien utilisé les unités de mesure précisées et que le temps de déclaration respecte les limites précisées.
  • la vérification de l'étendue ressemble à la vérification de la validité, car elle porte aussi sur un champ à la fois. Ce type de vérification a pour but d'assurer que les valeurs, les rapports et les calculs respectent les limites prédéterminées.
  • la vérification des dédoublements examine un enregistrement complet à la fois. Elle recherche les dédoublements de sorte que l'enregistrement d'une personne ou d'une chose n'apparaît qu'une seule fois. Cette vérification recherche aussi si le répondant apparaît plus d'une fois dans l'univers de l'enquête, surtout après la modification du nom. Enfin, elle vérifie aussi si les données ont été entrées une seule fois dans le système.
  • la vérification de la cohérence compare les diverses réponses d'un enregistrement pour en assurer la cohérence l'une par rapport à l'autre. Par exemple, si une personne déclare faire partie du groupe d'âge de 0 à 14 ans et est à la retraite, il existe alors un problème de cohérence entre les deux réponses. La vérification inter-champ constitue une autre forme de vérification de la cohérence. Elle vise à vérifier que, si un chiffre est déclaré dans une section, un chiffre équivalent sera déclaré dans une autre section.
  • la vérification historique sert à comparer les réponses dans les enquêtes régulières (c.-à-d., détecter toute modification importante par rapport à la déclaration précédente). Elle compare aussi les rapports et les calculs. Ainsi, tout écart qui ne respecte pas les limites établies est signalé et fait l'objet d'une analyse.
  • la vérification statistique compare un ensemble complet de données. Ce type de vérification a lieu seulement après l'exécution de toutes les autres vérifications et la correction subséquente des données. Les données sont compilées et toute valeur extrême, toute donnée suspecte et toute valeur aberrante est rejetée.
  • les vérifications diverses portent sur les dispositions spéciales de déclaration, les vérifications dynamiques propres à l'enquête, les vérifications de la classification appropriée, les modifications apportées aux adresses physiques, aux lieux et aux contacts ainsi que la vérification de la lisibilité, qui permet de s'assurer que les chiffres et les symboles sont reconnaissables.

La vérification des données dépend de la complexité du questionnaire. Cette complexité vise la longueur et le nombre de questions posées. Elle porte aussi sur les détails des questions et l'étendue du domaine que couvre le questionnaire. Dans certains cas, la question peut utiliser une terminologie très technique. Dans ce type d'enquêtes, nous aurons recours à des méthodes spéciales de déclaration et à des vérifications propres à cette industrie.

Données erronées

La vérification des données devrait détecter et minimiser les erreurs, telles que :

  • les questions non posées
  • les réponses non enregistrées
  • les réponses non pertinentes

Une réponse inexacte peut résulter d'une négligence ou d'un effort délibéré de donner des réponses déroutantes. Elle aura aussi lieu lorsque la réponse nécessite un calcul mathématique. Par exemple, la conversion des jours en heures ou d'un revenu annuel en revenu hebdomadaire accroît le risque d'erreurs.

Exemple 1 - Réponses inexactes

Cet exemple de vérification illustre la manière dont peut se glisser une réponse inexacte. Lire attentivement les questions et réponses suivantes, tirées du formulaire de l'Enquête sur la population active de Statistique Canada. Où se trouve l'erreur dans la réponse du répondant?

Question 151 - Outre le temps supplémentaire, combien d'heures rémunérées la personne n° 1 a-t-elle travaillées chaque semaine?
Réponse - 40

Question 153 - La semaine dernière, pendant combien d'heures la personne n° 1 a été absente de son emploi en raison de vacances, de maladie ou de toute autre raison?
Réponse - 0

Question 155 - La semaine dernière, combien d'heures supplémentaires rémunérées la personne n° 1 a-t-elle travaillées à son emploi?
Réponse - 4

Question 156 - La semaine dernière, combien d'heures supplémentaires non rémunérées la personne n° 1 a-t-elle travaillées à son emploi?
Réponse - 0

Question 157 - La semaine dernière, combien d'heures la personne n° 1 a-t-elle réellement travaillées à son emploi principal?
Réponse - 40

La question 151 indique que la personne 1 travaille habituellement 40 heures par semaine. La question 153 montre que le répondant n'a pas eu de temps libre la semaine précédente, et la question 155 indique en fait que la personne a travaillé quelques heures supplémentaires. Toutefois, la question 157 précise que la personne a travaillé au total 40 heures durant la semaine! La réponse réelle devrait plutôt être 44 heures.

Les réponses à chaque question semblent acceptables. C'est seulement lors de leur comparaison que nous pouvons relever des inexactitudes dans une ou plusieurs des réponses données.

Le recoupement, type de vérification de la cohérence, est seulement un type de vérification. Il permet la comparaison des réponses données à diverses questions. Nous pouvons l'effectuer manuellement ou au moyen d'un logiciel de vérification.

Cette vérification indique que, dans l'exemple précédent, il est nécessaire de prendre d'autres mesures pour obtenir une réponse exacte, l'intervieweur devra communiquer de nouveau avec le ménage et vérifier le nombre d'heures travaillées par la personne 1.

Lors d'une interview sur place ou téléphonique assistée par ordinateur, l'intervieweur aurait aussitôt obtenu un avertissement électronique à la saisie de 40 en réponse à la question 157. L'intervieweur aurait alors pu contre-vérifier la réponse auprès du répondant. Cette méthode est beaucoup plus rapide et évite le fardeau de recommuniquer avec le répondant.

Vérification : outil de gestion

La vérification est aussi un outil précieux pour évaluer la qualité des données, car elle peut indiquer s'il est nécessaire d'apporter de nombreuses vérifications. Elle permet aussi d'éviter la tenue d'une autre enquête semblable, car elle permet de relever la cause probable des problèmes.