Section 5 : Concepts de données

  1. À propos des données
  2. Méthodes statistiques
  3. Métadonnées
  4. Données agrégées
  5. Microdonnées
  6. Accès aux FMGD par l'entremise de l'IDD
  7. Systèmes de classification utilisés à Statistique Canada

À propos des données

La différence entre renseignements statistiques, statistiques et données

En tant que professionnel des données, il est important de comprendre la différence entre les renseignements statistiques, les statistiques et les données. Ces concepts sont clairement décrits dans la présentation d'initiation à l'IDD de Chuck Humphrey, « A Framework for Thinking about Statistical Information ». Cette présentation, donnée pour la première fois en 2004, a été utilisée d'innombrables fois au fil des ans par la plupart, sinon la totalité, des personnes-ressources de l'IDD. La majeure partie du texte qui suit est tirée des présentations de M. Humphrey à ce sujet.

Renseignements statistiques

Les renseignements statistiques peuvent être décrits comme une valeur ajoutée découlant de l'interprétation de statistiques ou de données. Ces renseignements prennent souvent la forme d'analyses (p. ex. un article dans les Rapports sur la santé).

Statistiques

Les statistiques sont les faits et les chiffres qui ont été établis à partir des données. Elles ont été traitées et sont prêtes à être utilisées, mais ne reposent pas sur le même type d'analyse que les renseignements statistiques. Elles peuvent prendre la forme de publications électroniques, de tableaux électroniques ou de bases de données.

Données

Les données sont des fichiers numériques créés et organisés en vue du traitement et de l'analyse. Il existe deux types de données – agrégées et microdonnées. Les données agrégées et les microdonnées offrent à l'utilisateur un plus grand contrôle concernant les variables disponibles pour l'analyse. De plus amples détails figurent dans les sections « Données agrégées » et « Microdonnées » ci-après.


Méthodes statistiques

Statistique Canada produit des statistiques qui aident les Canadiens à mieux comprendre leur pays, sa population, ses ressources, son économie, sa société et sa culture. Outre le Recensement que Statistique Canada effectue tous les cinq ans, il existe environ 350 enquêtes actives sur pratiquement tous les aspects de la vie au Canada.

Statistique Canada a la responsabilité de fournir des données fiables et détaillées aux Canadiens et de donner aux administrations publiques, aux entreprises, aux syndicats et aux organismes sans but lucratif l'information dont ils ont besoin pour maintenir une société ouverte et démocratique.

Depuis près de 100 ans, Statistique Canada utilise à de nouvelles fins les données recueillies par d'autres organisations dans le but d'appuyer davantage les administrations publiques et les collectivités dans la prise de décisions. Ces données contribuent à la création de produits statistiques qui permettent l'élaboration de politiques et la prise de décisions éclairées et économisent temps et argent.

Statistique Canada utilise les données administratives uniquement à des fins statistiques pour compléter les données d'enquête, pour remplacer une enquête et pour soutenir les activités statistiques. Le recours aux données administratives permet à l'organisme d'améliorer la qualité des données, de répondre aux besoins de renseignements actuels et nouveaux, de réduire les coûts de la collecte de données et de diminuer le temps de réponse imposé aux Canadiens dans le cadre de ses enquêtes.

Pour obtenir plus d'information à propos des concepts statistiques, des méthodes et de la conception des enquêtes, veuillez consulter les ressources suivantes :

Techniques d'enquête (12-001-X)
La revue publie des articles sur les divers aspects des méthodes statistiques qui intéressent un organisme statistique comme, par exemple, les problèmes de conception découlant de contraintes d'ordre pratique, l'utilisation de différentes sources de données et de méthodes de collecte, les erreurs dans les enquêtes, l'évaluation des enquêtes, la recherche sur les méthodes d'enquêtes, l'analyse des séries chronologiques, la désaisonnalisation, les études démographiques, l'intégration des données statistiques, les méthodes d'estimation et d'analyse de données et le développement de systèmes généralisés. Une importance particulière est accordée à l'élaboration et à l'évaluation de méthodes qui ont été utilisées pour la collecte de données ou appliquées à des données réelles.

Méthodes et pratiques d'enquête (12-587-X)
Cette publication montre comment concevoir et mener un recensement ou une enquête par sondage. Le lecteur y trouvera une explication des concepts fondamentaux des enquêtes et des façons de concevoir des sondages efficaces et de qualité. Cette publication s'adresse à ceux qui planifient, mènent, ou gèrent une enquête et aux étudiants des cours de conception d'enquête.

Les statistiques : le pouvoir des données! (12-004-X)
Les statistiques : le pouvoir des données! est parue en 2001 pour aider les élèves et enseignants à soutirer le maximum des statistiques. Cette ressource Web fut publiée principalement pour les élèves du secondaire qui suivent des cours de mathématiques et de sciences de l'information, mais elle servait également à d'autres élèves, aux enseignants et au grand public. La dernière mise à jour a été effectuée en 2011.

Méthodes statistiques
Information et sources qui décrivent les méthodes statistiques et mathématiques utilisées pour recueillir, traiter et diffuser les données provenant des enquêtes par sondage et des recensements ou les données administratives.


Métadonnées

À propos des métadonnées

Les métadonnées correspondent à la documentation d'accompagnement des données. Elles aident l'utilisateur à interpréter les microdonnées, les données agrégées et les fichiers géographiques. L'information généralement couverte comprend la définition des variables et de leurs systèmes de classification, la description de la méthodologie utilisée pour la collecte, le traitement et l'analyse des données et l'information sur l'exactitude des données.

Différentes catégories de métadonnées

Les métadonnées peuvent comprendre différents documents, y compris ceux figurant dans les Définitions, sources de données et méthodes de Statistique Canada (anciennement appelée Base de métadonnées intégrée ou BMDI) : questionnaires d'enquête, instructions pour les intervieweurs, manuels de codage, guides de l'utilisateur, clichés d'enregistrements, dictionnaires de données, fichiers des fréquences, tableaux de c.v., etc. Veuillez noter que les manuels de codage, les clichés d'enregistrement et les dictionnaires de données ont certaines propriétés en commun.

  • Définitions, sources de données et méthodes de Statistique Canada : Si ce n'est pas déjà le cas, cette page devrait faire partie de vos favoris. La section Définitions, sources de données et méthodes du site Web de Statistique Canada comprend de brèves descriptions de l'information pertinente pour chaque enquête, ainsi que sur le statut, la fréquence, le questionnaire et le guide de déclaration, la description, les sources de données, la méthodologie, l'exactitude des données, la population cible, la conception de l'instrument, l'échantillonnage, la détection des erreurs, l'imputation, l'estimation, l'évaluation de la qualité et le contrôle de la divulgation.
  • Questionnaires : Cet outil est utile pour évaluer les questions posées au répondant et pour voir leur formulation. Il est très important pour les chercheurs de savoir que si une question figure dans le questionnaire, mais n'est pas dans le FMGD, la variable est accessible uniquement par l'entremise du Programme des CDR. Dans certains cas, il est possible d'obtenir des totalisations personnalisées. Il convient de se rappeler que dans le cas des FMGD, les réponses à certaines questions ne peuvent pas être utilisées directement, mais peuvent servir à la création des variables dérivées figurant dans le FMGD. Cela fournit aussi le contexte de la question – « La question a-t-elle été posée comme je le pensais? » Nota : Des instructions à l'intervieweur sont souvent incluses dans le questionnaire.
  • Instructions à l'intervieweur : Les instructions à l'intervieweur donnent une indication de la façon dont les données ont été recueillies, ainsi que de l'enchaînement des questions dans le questionnaire (ce qui contribue à expliquer pourquoi la population pour certaines variables peut être inférieure à la population totale). D'autres instructions peuvent aussi faciliter l'interprétation des données.
  • Guide de l'utilisateur : Le guide de l'utilisateur comprend de l'information pour aider l'utilisateur à interpréter les données d'enquête. Il a certaines propriétés en commun avec le dictionnaire de données, le cliché d'enregistrement et le guide de codage, car il contient souvent toute la documentation relative à une enquête (p. ex. la méthode d'échantillonnage, la population échantillonnée, les descriptions des variables, leur position, les étiquettes).
  • Guide de codage : Le terme guide de codage est un terme générique souvent employé pour décrire le guide de l'utilisateur, le cliché d'enregistrement et le dictionnaire de données ou des combinaisons de ces documents. Le premier guide de codage comprenait les règles d'attribution des codes numériques aux réponses aux questions du questionnaire. Toutefois, dans son application récente à Statistique Canada (on attribue habituellement une extension « _cbk » au dictionnaire de données), il sert généralement à fournir des métadonnées propres à une variable – texte de la question, valeurs associées aux réponses, déclarations de valeurs manquantes, univers des variables, etc.
  • Cliché d'enregistrement : Le cliché d'enregistrement fournit le nom des variables, la position des colonnes dans le fichier de données et le nombre de décimales. Souvent distribué en format .xls, le cliché d'enregistrement peut donc être transféré en ASCII et utilisé pour créer les fichiers de commandes SPSS/SAS/Stata. Tout comme le guide de codage, il peut fournir des ventilations de variables et les codes de réponses.
  • Dictionnaire de données : Le dictionnaire de données est une excellente source d'information générale sur les variables d'une enquête, le codage des variables, les valeurs manquantes et les fréquences. Ce document a des propriétés en commun avec le guide de codage, le guide de l'utilisateur et le cliché d'enregistrement.
  • Fichier des fréquences : Le fichier des fréquences contient une liste des fréquences associées aux réponses de l'ensemble de données, c'est-à-dire le nombre de répondants pour chacune des réponses possibles à une question. Quelques variables sont continues et ne sont pas comprises dans la liste des fréquences (p. ex. la variable de pondération). Ce fichier peut aussi comprendre des fréquences pondérées et des fréquences non pondérées.
  • Tableaux de c.v. : Afin de permettre d'évaluer la qualité des données, plusieurs enquêtes fournissent des tableaux de c.v., c'est-à-dire les coefficients de variation. Il s'agit parfois de simples tableaux, mais certaines enquêtes comportent des poids bootstrap permettant de les calculer de façon différente. Les tableaux de c.v. sont aussi appelés tableaux de variabilité.

Données agrégées

À propos des données agrégées

Les données agrégées correspondent à des résumés statistiques présentés dans une structure de fichier de données particulière, qui permet l'analyse informatique subséquente (c'est-à-dire le traitement des données). Les données agrégées sont produites afin de permettre l'accès aux données qui ne peuvent être diffusées sous forme de microdonnées, comme celles des enquêtes fondées sur le Registre des entreprises de Statistique Canada, et d'organiser les statistiques sous forme de tableaux de données.

Dans un fichier de données agrégées, les variables ne permettent pas de générer des totalisations croisées des personnes parce que l'unité d'observation initiale a été remplacée par le temps, la géographie ou une dimension sociale.

Les données agrégées ne contiennent pas toutes les combinaisons de variables qu'un utilisateur pourrait vouloir effectuer à partir des microdonnées. Par exemple, un chercheur pourrait vouloir déterminer si la consommation d'alcool et le jeu sont corrélés et examiner si ces variables diffèrent entre les hommes et les femmes, selon le groupe d'âge, et si les résultats varient au Canada. Même si les données de l'Enquête sur la santé dans les collectivités canadiennes (ESCC) 3.1 sont recueillies selon la localisation géographique du répondant, le sexe, l'âge, l'Indice canadien du jeu excessif et la consommation d'alcool, ces combinaisons de variables peuvent ne pas avoir été utilisées pour créer un produit de données agrégées.

Différentes catégories de données agrégées

Les données agrégées sont diffusées sous plusieurs formes, y compris CANSIM, Beyond 20/20, des chiffriers et des bases de données. La grande disponibilité du logiciel SIG a aussi généré une demande accrue de statistiques du recensement présentées sous forme de données agrégées.

CANSIM offre des données de séries chronologiques. Il s'agit d'une excellente source de données sociales et économiques. Les données sont présentées dans de nombreux formats, y compris XML (SDMX-ML), ainsi que comme valeurs séparées par des virgules (CSV), un format que l'on privilégie désormais pour la manipulation et l'analyse de données au moyen de chiffriers.

Beyond 20/20 est un logiciel gratuit permettant la manipulation d'un tableau croisé dynamique pour créer et réorganiser un fichier de données. Statistique Canada utilise Beyond 20/20 pour diffuser plusieurs de ses produits de données agrégées, notamment les données administratives et commerciales. Le recensement de la population et le recensement de l'agriculture font un excellent usage de Beyond 20/20 pour la diffusion de leurs données sur le site Web de Statistique Canada.

La collection de l'IDD comporte quelques produits (p. ex. Structure des industries canadiennes, Enquête sur l'innovation) qui utilisent Beyond 20/20 comme logiciel de navigation. Ces produits sont accessibles par l'intermédiaire du serveur de données Web (SDW) de l'IDD, un afficheur de tableaux multidimensionnel qui permet de diffuser des données sur le Web dans divers formats.

Certaines données agrégées sont disponibles directement dans un format lisible par les chiffriers et les bases de données. La collection de l'IDD comporte quelques produits de ce genre, dont des statistiques juridiques, des tableaux sur l'éducation, des données régionales et des données administratives. Il faut préciser que les bases de données ne sont pas très nombreuses dans la collection de l'IDD.


Microdonnées

À propos des microdonnées

Les microdonnées sont des données observées directement ou recueillies auprès d'une unité d'observation particulière. C'est donc dire qu'un fichier de microdonnées comprend des données brutes organisées, les lignes représentant une unité de mesure particulière (habituellement une personne, un ménage ou une famille) et l'information concernant les lignes correspondant aux valeurs des variables.

Lorsque Statistique Canada mène une enquête, l'information est recueillie auprès de chaque unité d'observation (p. ex. la personne, le ménage, etc.). Le traitement des réponses consiste à les coder en utilisant un chiffre particulier correspondant à la réponse du répondant. Ainsi, Statistique Canada utilise souvent un « 1 » pour représenter les hommes et un « 2 » pour représenter les femmes. Le fichier de microdonnées est créé en codant et en enregistrant électroniquement les réponses de chaque répondant à toutes les questions pertinentes de l'enquête.

Un fichier de microdonnées est composé de lignes de chiffres et de lettres – chaque ligne représentant les réponses des répondants au questionnaire. Il comprend aussi un enregistrement logique par répondant, dans lequel sont incluses toutes les réponses faites par ce répondant au questionnaire. Chaque enregistrement logique se compose d'un ou de plusieurs enregistrements physiques (lignes de données) – généralement, les fichiers de Statistique Canada utilisent un enregistrement physique pour décrire un enregistrement logique. Une fois les variables codées sous forme de chiffres (plutôt que lisibles sous forme de texte), les métadonnées doivent être utilisées pour décrire le fichier de données. Ces chiffres seuls n'ont aucune signification. Ils ont besoin des métadonnées pour avoir une signification et être interprétés.

Il est important de noter que certaines informations recueillies dans le questionnaire ne sont pas disponibles dans le fichier de données, parce que Statistique Canada accorde une très grande importance à la protection de l'anonymat des répondants et à la confidentialité des données (p. ex. les noms et les adresses des répondants ne sont jamais inclus dans un fichier de microdonnées).

Différentes catégories de microdonnées

Les microdonnées permettent aux chercheurs d'utiliser l'une ou l'autre des variables du fichier pour l'analyse. Les propriétés des microdonnées sont explorées dans la section précédente, À propos des microdonnées.

Avec les microdonnées, les chercheurs peuvent analyser l'une ou l'autre des variables du fichier et, ainsi, construire les tableaux dont ils ont besoin, plutôt que d'être obligés de choisir un tableau existant déjà dans un fichier de données agrégées.

Il existe quatre catégories de fichiers de microdonnées : fichiers principaux; fichiers partagés; fichiers synthétiques; et fichiers de microdonnées à grande diffusion.

Fichiers principaux

Pour chaque enquête menée par une division auteure, on crée un fichier principal, structuré comme le questionnaire, qui contient toutes les réponses de chaque répondant.

Seulement deux catégories d'utilisateurs sont autorisées à accéder à un fichier principal – la division auteure (afin de faire des extractions pour des clients qui paient pour l'extraction et pour les analystes des divisions qui font de la recherche) et les analystes des centres de données de recherche (CDR). Remarque : Ce ne sont pas tous les fichiers principaux qui sont accessibles dans les CDR.

Lorsqu'une analyse est effectuée à partir d'un fichier principal, les résultats de l'analyse doivent faire l'objet d'un examen approfondi au moyen d'une procédure appelée « analyse de divulgation », pour s'assurer que les règles de confidentialité établies par Statistique Canada sont respectées. Grâce à cette procédure, on s'assure qu'aucun répondant ne peut être identifié.

Fichiers partagés

Les fichiers partagés sont des fichiers confidentiels au sujet desquels les participants à l'enquête ont signé un formulaire de consentement permettant à Statistique Canada d'autoriser l'accès à leur information pour des projets de recherche approuvés. Ces fichiers comprennent un sous-ensemble des cas du fichier principal. L'accès aux fichiers partagés peut être accordé à des ministères gouvernementaux, sans que leurs chercheurs aient à travailler dans un centre de données de recherche.

Fichiers synthétiques

Relativement peu de chercheurs peuvent accéder au fichier principal décrit précédemment. Statistique Canada offre une option de rechange à l'accès aux fichiers principaux, c'est-à-dire des fichiers synthétiques, aussi appelés « fichiers fictifs ». Il faut noter que très peu d'enquêtes comportent des fichiers synthétiques.

Les fichiers synthétiques sont créés par les divisions auteures, en reproduisant un fichier principal, mais en modifiant les données… mais qu'est-ce que ça veut dire? Les fichiers contiennent la structure complète des variables du fichier principal, mais ne contiennent pas de cas réels. C'est donc dire que même s'ils semblent comprendre des données réelles, ils ne doivent en aucun cas être utilisés pour compiler des statistiques réelles.

Ces fichiers existent pour offrir aux chercheurs la possibilité d'utiliser le fichier de données, de déterminer les variables qu'ils souhaitent utiliser pour l'analyse, de créer leur fichier de système et d'avoir une idée des fréquences issues des totalisations croisées à partir du fichier principal. Ces résultats ne sont pas les vrais chiffres, mais permettent à l'utilisateur de se faire une bonne idée s'il veut pousser plus loin et faire une demande à la division auteure pour faire exécuter son programme sur le fichier principal.

Fichiers de microdonnées à grande diffusion (FMGD)

Statistique Canada mène quelque 350 enquêtes par année, englobant des ménages, des établissements, des entreprises et des données administratives. Il est possible de préparer des fichiers de microdonnées à grande diffusion dans des secteurs où les unités de l'univers sont suffisamment nombreuses pour masquer l'identité du répondant. Il est plus facile de préparer ce genre de fichier pour des ménages et des particuliers que pour des entreprises.

Chaque fichier de microdonnées à grande diffusion repose sur un fichier principal correspondant. Les modifications apportées par Statistique Canada avant la diffusion du FMGD garantissent que les risques d'enfreindre la confidentialité ont été supprimés. Comme les résultats des analyses réalisées par un chercheur sur un tel fichier n'ont pas à faire l'objet d'un examen avant leur diffusion, le fichier est considéré comme étant « à grande diffusion ».

Les modifications apportées aux fichiers principaux pour les convertir en FMGD peuvent inclure : le regroupement de variables (p. ex. groupes d'âge au lieu d'âges individuels); le regroupement en une seule variable (p. ex. plusieurs questions sur la langue regroupées en une seule variable sur la langue pour l'analyse); la suppression de variables (même si la variable fait partie du fichier principal, elle n'apparaît pas dans le fichier à grande diffusion); l'élimination des observations extrêmes (élimination des exceptions – souvent utilisée pour revenu).

En utilisant ces techniques afin de rendre les fichiers anonymes, la combinaison de variables ne produira pas de résultats permettant d'identifier un répondant.

Lorsqu'une équipe de projet a préparé un fichier à grande diffusion, les résultats doivent être examinés par le Comité de la diffusion des microdonnées. Celui-ci passe en revue les étapes et les mesures prises par l'équipe durant la création du fichier. C'est ce qui explique le délai éventuel entre l'annonce de la disponibilité des résultats d'enquête dans Le Quotidien et la parution d'un fichier de microdonnées à grande diffusion.

Une fois l'autorisation accordée, on peut préparer des copies du fichier et de la documentation correspondante et les offrir au grand public. Si ce n'est déjà fait, la disponibilité de ces données doit être annoncée dans Le Quotidien, avant que le fichier à grande diffusion ne soit rendu public. Si la disponibilité des données a déjà été annoncée, il n'est pas nécessaire d'annoncer la disponibilité du fichier à grande diffusion. Toutefois, de nombreuses divisions préparent une autre annonce afin que les utilisateurs sachent qu'ils peuvent désormais consulter les données sous une autre forme.

L'IDD donne accès à des fichiers synthétiques et à tous les FMGD publiés par Statistique Canada.


Accès aux FMGD par l'entremise de l'IDD

Une fois diffusé, le fichier à grande diffusion est remis à la Section de l'IDD. Celle-ci exécute certaines vérifications et s'assure de la cohérence des données et de la documentation reçue. Lorsque les vérifications ont été dûment exécutées, le fichier est installé sur le site TEF de l'IDD et une annonce est affichée dans la DLILIST.

Comme il a été mentionné, l'unité de l'IDD exécute certaines vérifications des données et des métadonnées. Elle vérifie notamment si toutes les composantes des données et des métadonnées ont été reçues, si la longueur des enregistrements correspond à la description des métadonnées, et si le nombre d'enregistrements du fichier correspond aux données transférées de la division auteure. Si, au cours de ce processus, l'unité découvre un problème lié aux données ou à la documentation, elle doit parfois communiquer avec la division auteure. Certains problèmes peuvent être surmontés immédiatement, tandis que d'autres demandent un certain délai lié à l'intervention de la division auteure. Pour obtenir plus de renseignements, voir l'article par « J'ai lu ça dans Le Quotidien... », publié de nouveau dans le numéro de l'automne 2013 (vol. 14, no 2).

Dans le cadre d'un effort international de normalisation pour les données en sciences sociales, l'équipe de l'IDD prépare actuellement des fichiers d'enquête en langage XML, conformes à la DDI (Data Documentation Initiative) et les rend accessibles par l'intermédiaire de Nesstar. Comme le processus est en grande partie manuel, il y a un délai entre la publication d'un fichier sur le site TEF de l'IDD et son accès dans Nesstar.


Systèmes de classification utilisés à Statistique Canada

Statistique Canada utilise des classifications types pour favoriser l'utilisation de caractéristiques ou de variables communes d'une enquête à l'autre et d'une base de données à l'autre. Les classifications peuvent faire l'objet de mises à jour, alors les utilisateurs doivent veiller à utiliser la version appropriée, selon leurs besoins. Des concordances entre les différentes versions sont publiées, afin que les changements apportés aux classifications puissent être comparés dans le temps.

  • Industrie
    • Les classifications des industries comprennent le Système de classification des industries de l'Amérique du Nord (SCIAN) Canada et la Classification type des industries (CTI).
  • Produits
    • Les classifications des produits comprennent le Système de classification des produits de l'Amérique du Nord (SCPAN) Canada, Nomenclature canadienne des exportations (NCE), Tarif des douanes (TD), Classification type des biens transportés (CTBT), et Classification type des biens (CTB).
  • Plan comptable (PC) : Situation financière et résultats financiers de l'entreprise
    • La classification type qu'utilise actuellement Statistique Canada pour les rapports financiers est celle du Plan comptable (PC) Canada 2006.
  • Unités et secteurs institutionnels
    • La Classification canadienne des unités et secteurs institutionnels de 2012 se fonde sur la version internationale publiée dans le Système de comptabilité nationale 2008 (SCN 2008). Le SCN de 2008 est la plus récente norme internationale de compilation des statistiques des comptes nationaux.
  • Types des professions
    • Les types des professions comprennent la classification nationale des professions (CNP), Classification nationale des professions - statistiques (CNP-S), et Classification type des professions (CTP)
  • Programmes d'enseignement
    • Les classifications des programmes d'enseignement comprennent la classification des programmes d'enseignement (CPE) Canada et le principal domaine d'études (PDÉ).
  • Géographie
    • Les classifications géographiques comprennent la Classification géographique type (CGT) ainsi que d'autres classifications du Canada. Les classifications des pays et des zones d'intérêt du monde sont également incluses.

La liste complète des classifications figure à la section Définitions, sources de données et méthodes du site Web de Statistique Canada, sous la rubrique « Classifications statistiques ».