Publications

    Statistique Canada : Lignes directrices concernant la qualité

    Utilisation des données administratives

    Portée et objet
    Principes
    Ligne directrices
    Indicateurs de qualité
    Bibliographie

    Portée et objet

    Les dossiers administratifs sont constitués aux fins de l'administration de divers programmes non statistiques. Par exemple, on conserve des dossiers administratifs pour régulariser le mouvement transfrontalier des biens et des personnes, pour satisfaire aux exigences légales de l'enregistrement de certains événements, comme les naissances et les décès, et pour administrer les avantages sociaux (comme les pensions) ou les obligations (comme les impôts pour les particuliers ou les entreprises). Leur raison d'être est liée à la prise de certaines décisions; l'identité de l'unité correspondant à un dossier donné est donc capitale. Par contre, dans le cas des dossiers statistiques qui, eux, ne servent pas et ne peuvent pas servir de fondement à une mesure visant un individu ou une entreprise, l'identité des individus ne présente aucun intérêt une fois que la base de données est complètement constituée.

    Le recours aux dossiers administratifs présente bon nombre d'avantages pour un organisme statistique et ses analystes. Les demandes en matière de statistiques liées à tous les aspects de notre vie, de notre société et de notre économie continuent de croître. Ces demandes se présentent souvent dans un contexte de contraintes budgétaires importantes. En outre, les organismes statistiques se soucient, tout comme plusieurs répondants, de l'accroissement du fardeau de réponse associé aux enquêtes. Les répondants peuvent également réagir de façon négative s'ils ont l'impression d'avoir déjà communiqué des renseignements semblables (p. ex. en ce qui concerne leur revenu) à des enquêtes et à des programmes administratifs. Comme ils sont déjà constitués, les dossiers administratifs n'augmentent ni le coût de la collecte de données, ni le fardeau imposé aux répondants. Les progrès technologiques ont également permis aux organismes statistiques de surmonter nombre d'obstacles associés au traitement des ensembles de données volumineux. Pour toutes ces raisons, les dossiers administratifs sont de plus en plus utilisés à des fins statistiques.

    En matière de statistique, les dossiers administratifs servent (i) aux bases de sondage, à titre de base directement ou à titre de supplément d'une base existante, (ii) au remplacement de la collecte de données (p. ex. utilisation des données fiscales pour les petites entreprises au lieu de chercher à obtenir des données d'enquête à leur sujet), (iii) à la vérification et à l'imputation, (iv) à la tabulation directe, (v) à l'estimation de façon indirecte (p. ex. comme information auxiliaire lors de l'estimation par calage, de l'étalonnage ou de la calendarisation) et (vi) à l'évaluation de l'enquête, ce qui comprend la confrontation des données (p. ex. comparaison des estimations de l'enquête avec des estimations issues d'un programme administratif connexe).

    D'autre part, il faut se montrer prudent lorsqu'on utilise des données administratives en raison des limites dont on doit tenir compte, notamment (i) le niveau ou l'absence de contrôle de la qualité des données, (ii) la possibilité d'enregistrements partiels ou d'enregistrements complètement manquants (fichier incomplet), (iii) une différence conceptuelle susceptible d'occasionner des problèmes de biais et de couverture, (iv) l'actualité des données (la collecte des données échappant au contrôle de l'organisme statistique, il est possible qu'en raison de circonstances externes l'on ne reçoive pas une partie ou la totalité des données en temps opportun). Il faut également se rappeler que des coûts sont rattachés aux données administratives. Par exemple, des systèmes informatiques sont nécessaires pour nettoyer et compléter les données pour qu'elles soient utiles. Pour un examen des avantages et des inconvénients liés à l'utilisation de données administratives, voir Lavallée (2000).

    Principes

    Statistique Canada a pour politique d'utiliser des dossiers administratifs chaque fois qu'un tel recours constitue une solution de rechange rentable à la collecte directe de données. Tout comme pour n'importe quel programme d'acquisition de données, il convient de soupeser les coûts et les avantages liés à l'utilisation de dossiers administratifs à des fins statistiques; dans certains cas, cette solution évite les coûts inhérents à la collecte de données et n'augmente pas le fardeau de réponse, pourvu que la couverture et le cadre conceptuel des données administratives soient compatibles avec la population cible. Dans d'autres circonstances, des coûts peuvent s'appliquer à la saisie des données ou un service peut être demandé en échange de cette utilisation. Selon l'usage qu'on prévoit en faire, il est souvent avantageux de combiner des données administratives avec des données provenant d'une autre source.

    Le recours aux dossiers administratifs peut soulever des inquiétudes en ce qui concerne la protection de la confidentialité des renseignements issus du domaine public. Ces inquiétudes prennent de l'importance lorsque les dossiers administratifs sont appariés avec d'autres sources d'information. La Politique d'information des répondants aux enquêtes (Statistique Canada, 1998) exige que Statistique Canada informe tous ses répondants au sujet de renseignements tels que l'objet de l'enquête, les mesures de protection de la confidentialité, les plans de couplage des enregistrements et l'identité des parties à toute entente visant à partager les renseignements transmis par les répondants. Le couplage des enregistrements doit être conforme à la Politique relative au couplage d'enregistrements du Bureau (Statistique Canada, 2008). En particulier, toutes les demandes de couplage d'enregistrements doivent être présentées au Comité de la confidentialité et des mesures législatives et approuvées par le Comité des politiques. Les demandes sont normalement approuvées seulement pour des usages spécifiques. Cependant, dans certains cas, les demandes de données sont approuvées pour un usage récurrent ou continu.

    Le recours aux données administratives peut nécessiter la mise en œuvre de certaines étapes – généralement un sous-ensemble – du processus d'enquête par le Bureau, étapes que nous avons décrites dans les sections précédentes. Cela s'explique du fait que plusieurs étapes du processus d'enquête (p. ex. la collecte directe et la saisie des données) sont réalisées par l'organisation responsable des données administratives. Par conséquent, il faut ajouter d'autres lignes directrices à celles qui ont été présentées afin de proposer des façons de compenser les différences au chapitre des objectifs de qualité de l'organisme responsable des données. Par exemple, il peut s'avérer nécessaire d'élaborer un programme complexe de vérification et d'imputation afin d'assurer un certain degré de qualité exigé pour l'utilisation des données.

    Il ne faut pas oublier la raison fondamentale qui justifie l'existence de ces dossiers administratifs, qui sont le résultat d'un programme administratif mis en place pour des raisons administratives. Bien souvent, les utilisations statistiques de ces dossiers étaient inconnues lorsque le programme a été mis en oeuvre et l'organisme statistique a invariablement une influence limitée sur l'élaboration du programme. Pour cette raison, toute décision relative à l'utilisation des dossiers administratifs doit être précédée d'une évaluation de ces dossiers sur le plan de la couverture, du contenu, des concepts et des définitions, des procédures d'assurance et de contrôle de la qualité mises en place par le programme administratif pour en assurer la qualité, de la fréquence des données, de la rapidité de l'organisme statistique à recevoir les données et de la stabilité du programme au fil du temps. Il va de soi que le coût associé à l'obtention des dossiers administratifs est également un facteur déterminant dans la décision d'y recourir ou non.

    Ligne directrices

    Le programme administratif

    • Entretenir des liens avec le fournisseur des dossiers administratifs. Il faut communiquer avec lui dès qu'on commence à les utiliser. Cependant, il est encore plus important de demeurer constamment en relation étroite avec le fournisseur afin que l'organisme statistique ne soit pas pris au dépourvu par les changements et puissent même les influencer. Les commentaires sur les données statistiques et sur leurs lacunes peuvent être utiles au fournisseur et auront pour effet de renforcer la source de données administratives.

    • Il faut connaître le contexte dans lequel l'organisme administratif a créé le programme administratif (p. ex. législation, objectifs et besoins). Cela a une influence très importante sur i) la population couverte, ii) le contenu, iii) les concepts et les définitions, iv) la fréquence et l'actualité, v) la qualité de l'information recueillie et vi) la stabilité au fil du temps. Une attention particulière doit être accordée à la cohérence des concepts et à la qualité des données lorsqu'il existe des sources multiples de données administratives, par exemple lorsque chaque province gère son propre programme.

    • Garder à l'esprit que si les renseignements fournis à la source administrative peuvent causer des gains ou des pertes à des personnes ou à des entreprises, il est possible qu'ils soient biaisés et entraînent des problèmes de couverture et de biais imprévus. Il pourra être nécessaire de mener des études spéciales pour évaluer et comprendre ces sources d'erreur.

    Évaluer la qualité

    • Bon nombre des lignes directrices présentées dans les sections précédentes s'appliquent aux dossiers administratifs. Les lignes directrices relatives à l'échantillonnage et à la saisie des données sont pertinentes si les dossiers administratifs existent uniquement sur papier et doivent être codés et saisis. Ces lignes directrices seront également précieuses pour les données administratives accessibles en format électronique, y compris la CED (collecte électronique de données). Soulignons que puisque ces données sont disponibles en format électronique, elles peuvent être implicitement instables et sujettes à d'autres erreurs causées par les processus de traitement et de transmission des données à la source. Les lignes directrices se rapportant à la vérification et à la diffusion doivent être respectées lorsqu'on obtient ou crée un fichier de dossiers administratifs d'individus pour analyse et traitement ultérieurs.

    • Collaborer avec les concepteurs chargés de remanier les systèmes administratifs ou d'en concevoir des nouveaux. Cette approche favorise l'intégration des exigences statistiques aux systèmes dès le début du projet. De telles possibilités sont rares; cependant, lorsqu'elles se présentent, les avantages éventuels de la participation de l'organisme statistique valent largement le temps et le travail que requiert cette participation.

    • Examiner chaque donnée des dossiers administratifs qu'on prévoit utiliser à des fins statistiques. Évaluer la qualité des données. Comprendre les concepts, les définitions et les procédures qui sous-tendent la collecte et le traitement des données par l'organisme administratif. Certains éléments peuvent être de très mauvaise qualité et donc inutilisables. Par exemple, la qualité du codage d'une classification (comme la profession, l'activité industrielle, la géographie) peut être inadéquate d'un point de vue statistique ou en limiter l'utilisation.

    • Garder à l'esprit que la longévité de la source des données administratives et sa portée sont, de façon générale, entièrement entre les mains de l'organisme administratif. Les éléments administratifs qui ont initialement dicté les concepts, les définitions, la couverture, la fréquence, l'actualité et les autres attributs du programme administratif peuvent, au fil du temps, subir des changements qui faussent les séries chronologiques dérivées de la source administrative. Il faut se tenir au courant de ces changements et gérer leur incidence sur le programme statistique.

    • Effectuer une évaluation permanente ou périodique de la qualité des données transmises. L'assurance que la qualité des données est conservée est importante, car l'organisme statistique ne contrôle pas le processus de collecte des données. Cette évaluation peut consister en la mise en oeuvre de mesures de protection et de contrôle supplémentaires (p. ex. l'utilisation de méthodes et de procédures statistiques de contrôle de la qualité, les règles de vérification) au moment de la réception des données, de comparaisons avec d'autres sources ou d'études sur le suivi d'un échantillon. Une bonne habitude à prendre est de donner de la rétroaction à ses sources administratives afin de les aider à améliorer la qualité de leurs données.

    Confidentialité

    • Tenir compte des répercussions de la publication de données tirées des dossiers administratifs sur la protection des renseignements personnels. Bien que, en vertu de la Loi sur la statistique, Statistique Canada ait le droit d'accéder aux dossiers administratifs à des fins statistiques, il se peut que ceux qui ont fourni les renseignements à l'origine n'aient pas prévu que ces renseignements seraient utilisés de la sorte. (Statistique Canada, 2005). Par conséquent, les responsables de programme devraient être prêts à justifier cette utilisation secondaire et à expliquer qu'elle est sans gravité et qu'elle dessert l'intérêt public.

    • On a parfois recours aux données administratives pour remplacer une série de questions au répondant. En pareil cas, il peut être nécessaire d'obtenir la permission du répondant; il faut alors respecter la Politique d'information des répondants aux enquêtes (Statistique Canada, 1998). En l'absence de consentement, il faut mettre en place des mécanismes de collecte afin de poser les questions d'enquête équivalentes aux répondants.

    • Les données administratives renferment souvent des renseignements concernant des personnes ou des entreprises en particulier. Toutes les données diffusées par Statistique Canada sont assujetties aux dispositions - en matière de confidentialité - de la Loi sur la statistique, même lorsque les données sont déjà du domaine public. Par conséquent, il faut tenir compte des lignes directrices sur le contrôle de la divulgation lorsqu'on prépare toutes analyses de données en vue de leur diffusion, y compris la diffusion de données administratives.

    Nonréponse

    • Tout comme les données d'enquête, les données administratives ne sont pas à l'abri de la non-réponse, qu'elle soit partielle ou totale. Dans certains cas, le manque de rapidité dans l'obtention de toutes les données administratives donne lieu à un taux de non-réponse plus élevé. Par conséquent, certaines des lignes directrices sur la non-réponse s'appliqueront. À moins de pouvoir effectuer un suivi des non-répondants et obtenir les réponses voulues, il faut élaborer une procédure d'imputation ou de rajustement des poids pour composer avec la non-réponse. Les sources administratives sont parfois désuètes. Ainsi, dans le cadre du processus d'imputation, il faut accorder une attention spéciale à l'identification des unités actives et/ou inactives. Il peut également être nécessaire de recourir à l'imputation ou à la transformation (p. ex. calendarisation) lorsque certaines unités transmettent leurs données à une fréquence différente (p. ex. hebdomadaire ou trimestrielle) de la fréquence souhaitée (p. ex. mensuelle).

    Couplage d'enregistrements

    • Lorsqu'on doit coupler des dossiers administratifs (p. ex. pour le dépistage de répondants, pour compléter des données d'enquête ou pour analyser des données), on doit respecter la Politique relative au couplage d'enregistrements (Statistique Canada, 2008). L'utilisation d'une seule source de données administratives peut susciter de l'appréhension au plan de la protection des renseignements personnels; cependant, l'appréhension est multipliée lorsque la source administrative est couplée à d'autres sources. En pareil cas, il se peut que les sujets ne sachent pas que les renseignements fournis en deux occasions distinctes sont combinés. La Politique relative au couplage d'enregistrements vise à assurer que l'intérêt public de chaque couplage l'emporte largement sur les atteintes à la vie privée qu'il pourrait occasionner.

    • Il n'est pas toujours facile de combiner une source de données administratives à une autre source d'information. Cette tâche est particulièrement ardue lorsqu'il n'y a pas de clé d'appariement commune aux deux sources et que des techniques d'appariement doivent être utilisées. En pareil cas, le type de méthode d'appariement (c.-à-d. l'appariement exact ou statistique) doit être choisi en fonction des objectifs du programme statistique. Lorsque le programme a pour but la création et la mise à jour d'une base de sondage, ou la vérification des données, il faut utiliser un appariement exact. Pour l'imputation ou la pondération, l'appariement exact est préférable, bien qu'un appariement statistique puisse suffire. Lorsqu'on couple les sources afin d'effectuer des analyses de données qui, autrement, ne pourraient pas être réalisées, l'appariement statistique (c.-à-d. l'appariement d'enregistrements ayant des propriétés statistiques similaires) peut s'avérer un choix judicieux (voir Cox et Boruch, 1988, Kovacevic, 1999).

    • Lorsqu'on doit procéder à un couplage d'enregistrements, il convient de faire bon usage des logiciels existants. Il existe un certain nombre de progiciels bien documentés, par exemple le Système généralisé de couplage d'enregistrements de Statistique Canada.

    • Lorsque les données de plusieurs sources administratives sont combinées, il faut accorder davantage d'attention à la réconciliation des différences potentielles dans les concepts, les définitions, les dates de référence, la couverture et les normes de qualité appliquées à chaque source de données. Parmi les exemples, mentionnons les sources de données sur l'éducation, les rapports sur la santé et le crime, ainsi que les registres des naissances, des mariages, des immatriculations et des véhicules enregistrés, qui sont fournis par diverses organisations et divers organismes gouvernementaux.

    • Certaines données administratives sont de nature longitudinale (p. ex. l'impôt sur le revenu et la taxe sur les produits et services). Lorsque des enregistrements de périodes de référence différentes sont combinés, ils constituent des mines de données très riches pour les chercheurs. Il faut demeurer particulièrement vigilant lorsqu'on crée des bases de données longitudinales axées sur des personnes, car leur utilisation soulève des inquiétudes très sérieuses en matière de protection des renseignements personnels. L'identificateur doit être utilisé avec soin, car une unité peut changer d'identificateur avec le temps. Faire le suivi de tels changements afin que l'analyse temporelle des données soit adéquate. Dans certains cas, la même unité peut avoir deux identificateurs ou plus pour la même période de référence, ce qui engendre un dédoublement dans le fichier administratif. Il faut alors élaborer un mécanisme d'élimination du dédoublement.

    Documentation

    • Documenter la nature et la qualité des données administratives dès leur évaluation. Ce genre de documents aide les statisticiens à déterminer quels usages conviennent le mieux aux données administratives. Choisir des méthodes adéquates pour le programme statistique en fonction des données administratives et informer les utilisateurs de la méthodologie utilisée et de la qualité des données.

    Indicateurs de qualité

    Principaux éléments de la qualité : pertinence, exactitude, actualité, cohérence.

    Pertinence

    Les éléments d'information saisis par le système administratif sont-ils le reflet des concepts et des définitions de l'utilisateur des données? Bien qu'il soit souvent moins onéreux d'extraire des données administratives que de les recueillir dans le cadre d'une enquête, les buts de l'analyse doivent être atteints au moyen des données administratives pour que l'opération en vaille la peine. Indiquer la source, la date de référence et la mesure dans laquelle les définitions et les classifications correspondent aux données de l'enquête et aux besoins des utilisateurs des données.

    Exactitude

    Il arrive souvent que les données administratives ne soient pas visées par les mêmes procédures de vérification que les données d'enquête. Certaines vérifications sont normalement effectuées par l'organisation administrative, mais leur nature et leurs objets sont habituellement différents de ceux de l'organisme statistique. Il s'ensuit que la qualité des données peut soulever des inquiétudes lorsqu'on utilise des sources administratives à des fins statistiques, particulièrement dans les cas où la possibilité de communiquer de nouveau avec le responsable de l'information est limitée. En outre, les données administratives échantillonnées peuvent ne pas adhérer à aucun plan d'échantillonnage standard, ce qui risque d'introduire des biais et compliquer le calcul des erreurs d'échantillonnage. Enfin, si l'on utilise des données administratives comme base de sondage en plus ou au lieu d'une base de sondage créée grâce à la collecte de données, il pourrait être impossible d'analyser les problèmes de couverture et de non-réponse. D'un point de vue positif, précisons qu'un bon nombre de sources de données administratives sont des recensements, ce qui signifie qu'il n'y aura pas d'erreur d'échantillonnage dans les estimations qu'on en obtient. Il faut indiquer la contribution des données administratives aux estimations les plus importantes. Si elles servent de base de sondage, il faut déclarer le taux d'imputation pour la non-réponse partielle ou totale et expliquer comment l'imputation a été effectuée. Si on ne fait qu'additionner les données administratives de manière à produire une estimation, inclure une estimation de la perte de précision résultant de l'imputation. Si des données administratives constituent une partie de l'estimation, le reste étant pris en compte par des données d'enquête, déclarer la portion de la base de sondage couverte par les données administratives de même que la portion estimée. Calculer un taux de réponse en combinant la portion de données administratives et celle des données d'enquête selon les explications données par Trépanier et al. (2005).

    Actualité

    On doit considérer sérieusement l'actualité des données administratives. Il est fréquent que ce genre de données ne soient disponibles que longtemps après la période de référence. Dans le cas où l'on utilise des données administratives comme base de sondage, celles-ci risquent d'être désuètes au moment où elles pourraient être utilisées. De plus, si les données administratives sont intégrées aux données de l'enquête, il importe qu'elles soient aussi récentes que les données d'enquête, à défaut de quoi tout le processus risque d'être compromis. En revanche, il existe des cas où les systèmes administratifs sont maintenus en temps réel, et les données qu'on en extrait sont beaucoup plus à jour que ne le seraient celles d'une enquête distincte. Indiquer la date de mise à jour de toutes les données administratives utilisées. Expliquer les hypothèses formulées quant à l'utilisation de données administratives désuètes.

    Cohérence

    La cohérence est une autre composante importante des données administratives. Ces données sont normalement saisies en vue d'autres utilisations et il s'ensuit qu'elles ne s'intègrent pas forcément à des concepts susceptibles d'avoir déjà été définis par des intérêts en données statistiques. Cela peut se produire dans le cas des concepts et des définitions, mais aussi dans le cas de la couverture et du plan de sondage. Les données administratives peuvent ne couvrir qu'une portion de la population cible, ce qui en rend l'utilisation problématique, ou une stratégie d'échantillonnage pourrait avoir été utilisée, ce qui complique le calcul des poids d'échantillonnage. Dans certains cas, les concepteurs de l'enquête devraient prendre part à la conception des systèmes administratifs, ce qui aurait pour effet d'accroître grandement la cohérence des données. Dresser la liste de toutes les exclusions susceptibles de compliquer les comparaisons avec d'autres données. Les indicateurs peuvent inclure une mesure de la population cible qui n'a pas été couverte.

    Bibliographie

    Babyak, C. 2007. « Challenges in Collecting Police-Reported Crime Data », ICES-III, Proceedings of the Third International Conference on Establishment Surveys, Survey Methods for Businesses, Farms and Institutions, Montréal, 18 au 21 juin 2007, p. 959 à 966.

    Brackstone, G.J. 1987. « Utilisation des dossiers administratifs à des fins statistiques », Techniques d'enquête, no13, p. 35 à 51.

    BrioN, P. 2007. « Redesigning French Structural Business Statistics, Using More Administrative Data », ICES-III, Proceedings of the Third International Conference on Establishment Surveys, Survey Methods for Businesses, Farms, and Institutions, Montréal, 18 au 21 juin 2007.

    Cox, L.H. et R.F. Boruch. 1988. « Record Linkage, Privacy and Statistical Policy », Journal of Official Statistics, no 4, p. 3 à 16.

    Haziza, D., G. Kuromi et J. Bérubé. 2007. « Sampling and Estimation in the Presence of Tax Data in Business Surveys at Statistics Canada », ICES-III, Proceedings of the Third International Conference on Establishment Surveys, Survey Methods for Businesses, Farms and Institutions, Montréal, 18 au 21 juin 2007.

    Kovacevic, M. 1999. « Record Linkage and Statistical Matching – They Aren't the Same! », SSC Liaison, vol. 13, no 3, p. 24 à 29.

    Lavallée, P. 2000. « Combining Survey and Administrative Data : Discussion Paper », ICES-II, Proceedings of the Second International Conference on Establishment Surveys, Survey Methods for Businesses, Farms and Institutions, Buffalo, New York, 17 au 21 juin 2000, p. 841 à 844.

    Lavallée, P. 2005. « Indicateurs de la qualité : combinaison des données d'enquêtes et des données administratives », Recueil du Symposium international sur les questions de méthodologie 2005, Statistique Canada, Ottawa.

    McKenzie, R. 2007. « A Statistical Architecture for Economic Statistics  », ICES-III, Proceedings of the Third International Conference on Establishment Surveys, Survey Methods for Businesses, Farms, and Institutions, Montréal, 18 au 21 juin 2007.

    Michaud, S., D. Dolson, D. Adams et M. Renaud. 1995. « Combining Administrative and Survey Data to Reduce Respondent Burden in Longitudinal Surveys  », Proceedings of the Section on Survey Research Methods, American Statistical Association , p. 11 à 20.

    Penneck, S. 2007. « The Future of Using Administrative Data Sources for Statistical Purposes  », ICES-III, Proceedings of the Third International Conference on Establishment Surveys, Survey Methods for Businesses, Farms, and Institutions , Montréal, Québec, 18 au 21 juin 2007.

    Statistique Canada. 1998. « Politique d'information des répondants aux enquêtes », Manuel des politiques de Statistique Canada.

    Statistique Canada. 2005. « Loi sur la Statistique », Ottawa, www.statcan.gc.ca/about-apercu/act-loi-fra.htm.

    Statistique Canada. 2008. « Politique relative au couplage d'enregistrements », Manuel des politiques de Statistique Canada.

    Trépanier, J., C. Julien et J. Kovar. 2005. « Reporting Response Rates when Survey and Administrative Data are Combined », Proceedings of the Federal Committee on Statistical Methodology Research Conference, Arlington, Virginie, 14 au 16 novembre 2005.

    Wallgren, A. et B. Wallgren. 2007. Register-based Statistics : Administrative Data for Statistical Purposes, New York, John Wiley and Sons, 258 p.

    Date de modification :