2 Les sources de données
2.2 Types de données

Début du texte

Il existe plusieurs façons de collecter les données, mais les agences comme Statistique Canada ont principalement recours à trois grands types de méthodes: les recensements, les enquêtes-échantillon et les données administratives. Chacun présente à la fois des avantages et des inconvénients qui seront présentés dans cette section. Ensuite, d’autres méthodes alternatives seront décrites.

Recensement

En général, un recensement fait référence à une collecte de données auprès de chaque unité d’un groupe ou d’une population. Si vous aviez recueilli des données sur la taille de tous les élèves de votre classe, ce serait un recensement de votre classe. Les recensements sont souvent utilisés non seulement pour collecter des données à propos des unités d’une population, mais également pour les lister et les dénombrer. Si vous vouliez savoir combien de personnes habitent dans votre rue, vous auriez besoin de faire une liste de tous les logements dans votre rue et ensuite la liste de toutes les personnes qui habitent dans chacun des logements. Ce faisant, vous pourriez décider de collecter d’autres informations comme l’âge, le sexe et la langue maternelle. Ceci vous permettrait de compter le nombre d’hommes, de femmes et d’enfants qui habitent votre rue. Donc un recensement serait une manière directe de dénombrer le nombre d’unités et de produire des statistiques sur différentes caractéristiques.

Voici quelques avantages et désavantages d’utiliser un recensement :

Avantages (+)

Pas de variabilité échantillonnale : Il n'y a pas de variabilité échantillonnale attribuée aux statistiques issues d’un recensement parce qu'elles sont calculées à partir de données sur la population entière.

Fin niveau de détail : Avec un recensement, vous seriez capable de produire des statistiques pour des petits sous-groupes de la population, pourvu que vous ayez collecté les bonnes variables de classification.

Estimation directe des comptes : Le recensement permet une estimation directe des comptes de population, bien que des ajustements puissent être considérés pour les unités qui n’ont pas pu être rejointes.

Inconvénients (–)

Coût élevé : La tenue d'un recensement peut être dispendieuse si la population visée est grande.

Actualité : Un recensement prend plus de temps à réaliser qu'une enquête-échantillon ce qui signifie un plus grand délai entre la date référence et la diffusion des résultats.

Fardeau de réponse élevé : Il faut avoir de l'information sur chacun des membres de la population visée.

Moins de contrôle sur la qualité : Si la taille de la population est beaucoup plus grande que celle d’une enquête-échantillon et que les ressources sont limitées, il se peut que des compromis soient nécessaires sur le plan du contrôle de la qualité. Par exemple, peut-être qu’une partie seulement des non-répondants pourront être rejoints dans le cadre du suivi des cas pour la non-réponse.

Information moins détaillée : Étant donné les coûts, le fardeau de réponse et l’ampleur des activités nécessaires pour conduire un recensement dans une grande population, les variables mesurées sont parfois limitées à une courte liste de variables d’identification et de classification.

Enquête-échantillon

Une enquête peut être n’importe quelle activité de collecte d’information organisée et méthodique à propos des caractéristiques des unités d’une population. À Statistique Canada, les enquêtes utilisent des concepts bien définis ainsi que des méthodes éprouvées qui seront décrites dans la troisième section de ce document. Un recensement peut être considéré comme un type d’enquête, mais le mot enquête est le plus souvent utilisé pour faire référence à une enquête-échantillon, c’est-à-dire une enquête où les données sont collectées seulement pour certaines unités d’une population visée. Si vous obtenez la taille de 10 élèves d’une classe de 30 élèves, vous aurez utilisé une enquête-échantillon de votre classe plutôt qu’un recensement.

Voici les avantages et désavantages d’utiliser une enquête-échantillon au lieu d’un recensement.

Avantages (+)

Coût plus bas : Une enquête-échantillon est moins coûteuse qu'un recensement puisque les données sont recueillies auprès d'une partie seulement d'un groupe de la population.

Résultats plus rapides : On obtient des résultats bien plus rapidement que dans un recensement, car il y a moins d’unités à rejoindre et il y a moins de données à traiter.

Fardeau de réponse moins élevé : Moins de gens doivent répondre au questionnaire d'une enquête-échantillon.

Plus de contrôle sur la qualité : La plus petite envergure des activités facilite la gestion et le contrôle de la qualité.

Inconvénients (–)

Variabilité échantillonnale : Si vous sélectionnez plusieurs échantillons d’une même population et calculez des statistiques sur chacun de ces échantillons, les résultats seront un peu différents d’un échantillon à l’autre. Il faut tenir compte de cette source d’incertitude lors de l’estimation des statistiques tirées d’une enquête-échantillon.

Statistiques à un niveau moins détaillé : Il pourrait être impossible de produire des statistiques pour des petites sous-populations ou régions géographiques si elles ne sont pas suffisamment représentées dans l’échantillon.

Données administratives

Les données administratives sont collectées par des organismes dans le cadre de leurs opérations quotidiennes. Ces données portent, par exemple, sur les naissances, les décès, les impôts,  les immatriculations de véhicules automobiles ou les transactions. Ces données administratives peuvent être utilisées plus tard à titre de substitut ou en soutien à une enquête-échantillon ou un recensement.

Voici les avantages et désavantages d’utiliser des données administratives plutôt qu’un recensement ou une enquête-échantillon :

Avantages (+)

Coût plus bas : Les données administratives sont moins dispendieuses à utiliser, car il n’y a pas d’opération de collecte.

Pas de variabilité échantillonnale : Il n'y a pas de variabilité échantillonnale attribuée aux statistiques parce qu'elles sont calculées à partir de données sur des groupes entiers de la population.

Séries chronologiques : La collecte de données est continue, d'où la possibilité d'analyser les tendances.

Pas de fardeau de réponse : Il n'y a pas de fardeau additionnel pour les répondants puisque les données sont déjà recueillies.

Fin niveau de détail : Avec les données administratives, vous seriez capable de produire des statistiques pour de petits sous-groupes de la population ou des petites unités géographiques, tant que vous disposez des bonnes variables de classification et que les sous-groupes ont une bonne couverture (c’est-à-dire que la plupart des unités appartenant à ces sous-groupes sont présentes dans le fichier).

Inconvénients (–)

Manque de souplesse : À la différence des données d'enquête, l’utilisateur des données a peu de contrôle sur le choix des variables qui sont collectées. Celles-ci peuvent dans certains cas se limiter à quelques renseignements administratifs essentiels.

Manque d’exhaustivité : Les données se limitent à la population figurant dans les dossiers administratifs. Cette population est souvent différente de la population cible. Plusieurs sources de surdénombrement et de sous-dénombrement sont possibles.

Comparabilité au fil du temps : Les définitions sont conçues à des fins précises et elles évoluent au fil du temps. Ceci peut nuire à la comparabilité si on souhaite étudier des tendances.

Concepts et définitions : Les définitions sont établies par ceux qui conçoivent et gèrent le dossier selon leurs besoins et ces définitions peuvent ne pas être pertinentes dans un autre contexte.

Qualité des données : La qualité des données peut varier d’un fournisseur de données à l’autre, car ils n’accordent pas tous la même importance aux différentes dimensions de la qualité.

Éthique : Avec les recensements et les enquêtes-échantillon, les répondants sont conscients des données qui sont collectées. Ils consentent à ce que ces données soient utilisées puisque la vaste majorité des enquêtes sont faites sur une base volontaire. Avec les données administratives, il serait difficile d’informer chaque personne et d’obtenir son consentement. Ceci implique que les individus et les organisations qui utilisent les données administratives pour produire de l’information statistique ont une grande responsabilité de s’assurer que les données sont utilisées d’une manière bénéfique pour la société et que l’éthique des données a été considérée à toutes les étapes du processus.

Sources de données alternatives

Ces sources de données sont de plus en plus utilisées dans la production d’information statistique pour remplacer ou compléter les méthodes traditionnelles.

L’approche participative consiste à recueillir des renseignements provenant d’une vaste communauté d’utilisateurs et repose sur le principe selon lequel chaque citoyen est un expert dans son milieu. Avant la légalisation du cannabis en 2018, le gouvernement canadien avait besoin d’information sur la taille et l’activité du marché noir existant pour le cannabis séché. Cette information était difficile à collecter par une enquête-échantillon traditionnelle. D’une part, la caractéristique mesurée était rare. Un échantillon probabiliste aurait inclus plusieurs personnes qui ne consomment pas de cannabis puisque ceux-ci sont plus nombreux que les consommateurs dans la population canadienne. D’autre part, certaines personnes auraient pu hésiter à donner les détails de leur consommation de cannabis à un intervieweur. Statistique Canada a alors opté pour une approche participative pour recueillir l’information. L’agence a établi StatsCannabis, une application web anonyme permettant aux consommateurs de rapporter l’information sur leurs achats. Le gouvernement a pu utiliser cette information pour planifier la transition vers un marché légal du cannabis.

Le moissonnage du web est un processus par lequel des renseignements sont recueillis et copiés à partir du web aux fins d’analyses ultérieures. Depuis janvier 2021, des données du moissonnage du web sont utilisées pour modéliser le prix des ordinateurs dans l’Indice des prix des ordinateurs, des logiciels et des fournitures informatiques, une composante de l’Indice des prix à la consommation. Ce changement de la méthode de collecte vise à améliorer la couverture des produits considérés et l’actualité de l’information sur leurs prix, considérant les changements rapides propres à l’économie numérique. Comme pour les données administratives, les utilisateurs des données moissonnées ont une responsabilité accrue de s’assurer de l’éthique des données collectées et de suivre les meilleures pratiques pour éviter de collecter des informations personnelles par inadvertance.

La télédétection est l’acquisition à distance de renseignements à propos d’un objet ou d’un phénomène. La télédétection est utilisée à Statistique Canada pour le Programme d’évaluation de l’état des cultures. La croissance végétale sur les fermes canadiennes est observée de façon hebdomadaire à l’aide de l’imagerie satellite. Les données sont généralement traitées et rendues disponibles le même jour, permettant un monitorage en temps réel de l’agriculture canadienne. Ce programme fournit de l’information de grande valeur tout en réduisant les coûts de collecte et le fardeau de réponse des producteurs agricoles. D’autres exemples de télédétection sont les radars météorologiques qui suivent les tempêtes et les sismographes qui mesurent les vibrations de la terre.

Les registres statistiques sont des ensembles de données créés à des fins statistiques qui sont continuellement mises à jour avec des renseignements sur toutes les unités d’une population. Ils sont souvent créés par l’intégration de multiples sources de données à l’aide du couplage des microdonnées et utilisent des algorithmes ou des techniques d’apprentissage automatique pour consolider l’information et dériver de nouvelles variables. Le Registre des entreprises de Statistique Canada est un exemple de registre statistique qui est mis à jour en continu à partir des données sur les taxes payées par les entreprises et des données d’enquête. Il sert de base de sondage pour un grand nombre d’enquêtes économiques et il permet de produire les comptes semi-annuels des entreprises.

Finalement, les données ouvertes et les mégadonnées sont d’autres termes utilisés pour décrire certains types de données. Les données ouvertes sont des données structurées, directement exploitables par un ordinateur, qui sont partagées gratuitement et qui peuvent être utilisées sans restriction. Les mégadonnées réfèrent à des ensembles de données dont le nombre d’enregistrements et le nombre de variables sont si élevés qu’ils dépassent les capacités des logiciels traditionnels à traiter l’information en un temps raisonnable. Elles sont aussi caractérisées par les trois « v » : volume, variété et vélocité.


Date de modification :