Vérification

Warning Consulter la version la plus récente.

Information archivée dans le Web

L’information dont il est indiqué qu’elle est archivée est fournie à des fins de référence, de recherche ou de tenue de documents. Elle n’est pas assujettie aux normes Web du gouvernement du Canada et elle n’a pas été modifiée ou mise à jour depuis son archivage. Pour obtenir cette information dans un autre format, veuillez communiquer avec nous.

Portée et objet
Principes
Lignes directrices
Indicateurs de qualité
Bibliographie

Portée et objet

La vérification des données est l'application de contrôles visant à détecter les entrées manquantes, invalides ou incohérentes ou à mettre en évidence les enregistrements des données qui sont susceptibles de contenir des erreurs. Certains de ces contrôles sous-tendent des relations logiques qui découlent directement des concepts et des définitions. D'autres sont de nature plus empirique ou sont le résultat de l'application d'essais ou de procédures statistiques (p. ex., des techniques d'analyse des valeurs aberrantes). Les contrôles peuvent être fondés sur des données tirées de collectes antérieures de la même enquête ou d'autres sources.

La vérification englobe une vaste gamme d'activités, dont les vérifications des intervieweurs sur le terrain et les avertissements générés par ordinateur au moment de la collecte ou de la saisie des données. Elle comprend en outre la détermination des unités en prévision du suivi et les vérifications détaillées de microdonnées. Enfin, elle comprend la localisation des erreurs pour les besoins de l'imputation, de même que les vérifications de relations complexes, au niveau des macrodonnées, aux fins de la validation des données.

Principes

Un enregistrement de données qui a été modifié par suite de vérifications devrait être plus près de la valeur réelle qu'avant ces modifications. Nous concevons les vérifications pour déceler et corriger les incohérences, et non pas pour produire un biais par suite de l'imposition de modèles implicites. Lorsqu'une vérification plus poussée a un effet négligeable sur les estimations d'enquête finales, il s'agit d'une survérification et elle devrait être évitée.

L'analyse des taux de rejet à la vérification et l'ampleur des changements découlant des vérifications fournissent des renseignements concernant la qualité des données d'enquête et peuvent aussi suggérer des améliorations à l'outil d'enquête.

Lignes directrices

Conception

La vérification contribue efficacement à déceler les erreurs fatales (Granquist et Kovar, 1997), puisque le processus peut facilement être informatisé. Exécuter cette activité le plus rapidement possible. Bien qu'une certaine intervention manuelle soit nécessaire, un logiciel généralisé et réutilisable peut être particulièrement utile pour cette tâche. Le système Banff de vérification et d'imputation (Statistique Canada, 2009) et le Système canadien de contrôle et d'imputation du recensement (SCANCIR) (Bankier et coll., 1999), sont des exemples de ce type de logiciel. Certaines applications personnalisées peuvent aussi être développées sur la base d'autres logiciels qui ne visent pas uniquement les processus de vérification. Logiplus, le système de Statistique Canada servant à gérer les tables logiques de décision, est un exemple d'un tel logiciel.
L'informatisation permet aux gestionnaires d'enquête d'augmenter la portée et le volume des contrôles pouvant être effectués, ce qui est tentant pour eux. Minimiser le nombre de ces augmentations si elles font peu de différence dans les estimations de l'enquête. Plutôt que d'accentuer l'effort de vérification, réorienter les ressources vers des activités plus rentables (p. ex., l'analyse des données, l'analyse des erreurs de réponse).
Déterminer les valeurs des données extrêmes d'une période d'enquête ou entre les périodes d'enquête (cet exercice est appelé processus de détection des valeurs aberrantes). La présence de ce type de données se démarquant de la distribution est un signe précurseur d'erreurs potentielles. Utiliser des méthodes de détection univariées simples (Hidiroglou et Berthelot, 1986) ou des méthodes plus complexes et explicites (de Waal, 2000).
L'incidence des erreurs s'est avérée très variable, particulièrement dans les enquêtes recueillant des données numériques. Il est fréquent qu'un petit nombre d'erreurs soient à la source de la majorité des changements apportés dans les estimations. Envisager d'effectuer la vérification de façon sélective, afin de réaliser des gains d'efficacité potentiels (Granquist et Kovar, 1997), sans incidence négative sur la qualité des données. Les priorités peuvent être établies en fonction des types ou de la gravité des erreurs ou en fonction de l'importance de la variable ou de l'unité déclarante.
Les taux de succès des vérifications, soit la proportion des vérifications d'avertissement ou d'interrogation qui mettent en évidence les véritables erreurs, se sont avérés peu efficaces, souvent aussi bas que 20 ou 30 %. Élaborer des vérifications qui sont efficaces et contrôler l'efficacité sur une base régulière.
Il est possible que les vérifications ne permettent pas de détecter les petites erreurs systématiques introduites constamment dans les enquêtes répétitives, erreurs qui peuvent donner lieu à d'importants biais dans les estimations. Le « resserrement » des vérifications n'est pas la solution. Pour détecter ce genre d'erreurs systématiques, utiliser d'autres méthodes, comme les méthodes classiques de contrôle de la qualité, l'analyse et l'examen approfondis des concepts et des définitions, les études postérieures aux interviews, la validation des données et la confrontation des données avec d'autres sources de données qui peuvent être disponibles pour certaines unités.
Limiter le recours à la vérification pour résoudre les problèmes déjà survenus, surtout dans le cas des enquêtes répétitives. La contribution de la vérification à la réduction des erreurs est limitée. Bien qu'il soit essentiel d'effectuer un peu de vérification, il faut en réduire la portée et réorienter l'objectif. Attribuer une grande priorité à l'apprentissage tiré du processus de vérification. Pour réduire le nombre d'erreurs, s'attarder aux premières phases de la collecte de données plutôt qu'à l'épuration effectuée à la fin. Pratiquer la prévention plutôt que la correction des erreurs. À cette fin, ramener l'étape de vérification aux premières phases du processus d'enquête, de préférence lorsque le répondant est encore disponible, par exemple, en utilisant les méthodes d'interview téléphonique, d'interview sur place ou d'auto-interview assistées par ordinateur.
Pendant la conception des processus de collecte des données, et particulièrement pendant la vérification et le codage, s'assurer que les procédures sont appliquées à toutes les unités d'étude le plus uniformément possible et qu'elles comportent le moins d'erreurs possible. L'automatisation est préférable. Permettre au personnel ou aux systèmes de soumettre les cas difficiles à un petit groupe de spécialistes compétents. Centraliser le traitement, afin de réduire les coûts et de faciliter le recours aux connaissances spécialisées disponibles. Comme l'information recueillie peut donner lieu à des résultats imprévus, utiliser des processus adaptables pour apporter les changements qui s'imposent s'il y a lieu de le faire du point de vue de l'efficacité.

Collecte des données et suivi des questionnaires rejetés au contrôle

La vérification peut être utile pour l'épuration de certaines données, mais son rôle principal est de permettre de fournir de l'information sur le processus d'enquête, soit en donnant des mesures de qualité pour l'enquête en cours, soit en suggérant des améliorations pour les enquêtes futures. Envisager la vérification comme une partie intégrante du processus de collecte des données, du point de vue de la collecte de renseignements sur le processus. Dans cette optique, la vérification peut être précieuse pour préciser les définitions, améliorer un instrument d'enquête, évaluer la qualité des données, déterminer les sources des erreurs non dues à l'échantillonnage, servir de base pour l'amélioration future du processus d'enquête complet et fournir des données valables pour améliorer d'autres processus d'enquête et d'autres enquêtes (Granquist, Kovar et Nordbotten, 2006). Afin d'atteindre cet objectif, superviser le processus et produire des pistes de vérification, des diagnostiques et des mesures du rendement, et utiliser ces éléments pour établir les pratiques exemplaires.
Au cours des suivis, ne pas surestimer la capacité des répondants de corriger les erreurs. Leur agrégation peut être différente, leur mémoire limitée et leur apport négligeable. Limiter l'activité de suivi des répondants.
Pour les enquêtes-entreprises, élaborer une stratégie de suivi sélectif. L'utilisation d'une fonction de pointage (Latouche et Berthelot, 1992) concentre les ressources sur les unités d'échantillon importantes, les principales variables et les erreurs les plus graves.

Assurance de la qualité

S'assurer que toutes les vérifications sont cohérentes à l'interne (c.-à-d. non contradictoires).
Il faut se rappeler que l'utilisé de la vérification est limitée et que le processus peut en fait être improductif. Bien souvent, les changements de données fondés sur les vérifications sont considérés à tort comme des corrections de données. On peut prétendre qu'à un certain point du processus de vérification, on introduit autant d'erreurs qu'on en corrige. Identifier et respecter cette fin logique du processus.
Appliquer de nouveau les vérifications aux unités qui ont subi des corrections pour s'assurer qu'aucune autre erreur n'a été introduite directement ou indirectement par le processus de correction.
Ne pas sous-estimer la capacité du processus de vérification d'intégrer les données signalées aux modèles qu'imposent les vérifications. Il y a un réel danger de créer de faux changements pour la seule raison de s'assurer que les données ne sont pas rejetées à la vérification. Contrôler le processus!
Le processus de vérification est souvent très complexe. Lorsque la vérification se fait sous le contrôle de StatCan, communiquer les procédures détaillées et à jour et offrir une formation appropriée à tout le personnel concerné et effectuer un suivi des travaux proprement dits. Envisager d'appliquer les procédures de contrôle de la qualité.
Effectuer un suivi de la fréquence des rejets à la vérification, du nombre et du type de corrections apportées par strate, du mode de collecte, du type de traitement, des données élémentaires et de la langue utilisée pour la collecte. Cela aidera à évaluer la qualité des données et l'efficacité de la fonction de vérification.

Indicateurs de qualité

Principaux éléments de la qualité : exactitude, actualité

L'erreur de mesure est l'erreur qui se produit dans le cadre du processus de déclaration, tandis que l'erreur de traitement est celle qui se produit au moment du traitement des données. La dernière comprend les erreurs dans la saisie des données, le codage, la vérification et la totalisation des données, ainsi que dans l'affectation des poids d'enquête. Même s'il n'est habituellement pas possible de calculer l'erreur de mesure et l'erreur de traitement individuellement, le taux de rejet au contrôle donne une indication de leur importance combinée. Il s'agit du nombre d'unités rejetées par suite des contrôles de vérification divisé par le nombre total d'unités. Les produits doivent être accompagnés d'une définition des deux types d'erreurs et d'une description des principales sources d'erreurs. Cela éclaire les utilisateurs sur les mécanismes en place pour réduire l'erreur, étant donné que cela permet une collecte, une saisie et un traitement des données au point. Les erreurs de mesure et de traitement ont des répercussions sur le biais et la variance.

Les taux de vérification des variables clés doivent être indiqués. Ils peuvent être plus élevés en raison de l'erreur de mesure (p. ex., en raison du mauvais libellé de la question), ou à cause d'une erreur de traitement (p. ex., des erreurs dans la saisie des données).

La contribution totale des valeurs vérifiées aux estimations clés doit être indiquée. Il s'agit de la mesure dans laquelle les valeurs des estimations clés sont modifiées par les données qui ont été vérifiées. Cela peut donner une indication de l'effet de l'erreur de mesure sur les estimations clés. Cet indicateur s'applique uniquement aux moyennes et aux totaux.

La vérification des données est cruciale pour assurer l'exactitude et la cohérence des données. Toutefois, il peut s'agir d'une initiative coûteuse et longue. Il s'agit probablement de l'activité la plus coûteuse d'une enquête par sondage et d'un cycle de recensement. Lorsque cette vérification laborieuse, et souvent manuelle, a une incidence négligeable sur les estimations finales, on parle de survérification. Outre le fait qu'elle soit coûteuse sur le plan des finances, de l'actualité et de l'augmentation du fardeau de réponse, la survérification peut donner lieu à de graves biais, engendrés par l'intégration de données dans les modèles implicites qu'imposent les vérifications.

Bibliographie

Bankier, M., M. Lachance et P. Poirier. 1999. « A Generic Implementation of the New Imputation Methodology », Proceedings of the Survey Research Methods Section, American Statistical Association, p. 548 à 553.

De Waal, T., F. Van de Pol et R. Renssen. 2000. « Graphical Macro Editing: Possibilities and Pitfalls », Proceedings of the Second International Conferences on Establishment Surveys, Buffalo, New York.

Granquist, L. et J.G. Kovar. 1997. « Editing of Survey data : How Much is Enough? », Survey Measurement and Process Quality, New York, Wiley, p. 415 à 435.

Granquist, L., J. Kovar et S. Nordbotten. 2006. « Improving Surveys – Where Does Editing Fit in? », Statistical Data Editing – Impact on Data QualityVol. 3, Conference of European Statisticians, United Nations Statistical Commission and United Nations Economic Commission for Europe.

Hidiroglou, M. A. et J.-M. BerthelOt. 1986. « Statistical Editing and Imputation for Periodic Business Surveys », Survey Methodology, no12, p. 73 à 83.

Latouche, M. et J.-M. Berthelot. 1992. « Use of a Score Function to Prioritize and Limit Recontacts in Editing Business Surveys », Journal of Official Statistics, no8, p. 389 à 400.

Statistique Canada. 2009. Description des fonctions du système Banff pour la vérification et l'imputation. Rapport technique de Statistique Canada.

Date de modification :: 2015-11-27

Sélection de la langue

Recherche et menus

Recherche

Publications

Statistique Canada : Lignes directrices concernant la qualité