Exactitude et validation des données : méthodes pour assurer la qualité des données

Numéro de catalogue : 892000062020008

Date de diffusion : le 23 septembre 2020 Mise à jour : le 25 november 2021

L'exactitude est l'une des six dimensions de la qualité des données qui sont prises en compte à Statistique Canada. Les données sont exactes lorsqu'elles décrivent adéquatement les phénomènes qu’elles sont conçues pour mesurer ou représenter.

Avant d'utiliser des données, nous devrions les explorer pour en apprendre davantage sur les variables et les concepts, et aussi pour découvrir si elles comportent des erreurs, des incohérences ou des lacunes. Cette vidéo examine différentes façons d’explorer l'exactitude des données.

Étape du parcours des données
Explorer, nettoyer, décrire
Compétence des données
  • Découverte des données
  • Évaluation de la qualité des données
  • Nettoyage des données
Audience
Essentiel
Conditions préalables suggérées
s.o.
Durée
12:10
Coût
Gratuit

Voir la vidéo

Exactitude et validation des données : méthodes pour assurer la qualité des données - Transcription

(Le symbol de Statistics Canada et le mot-symbol du Canada est présent avec le titre suivant: « Exactitude et validation des données : méthodes pour assurer la qualité des données »)

Exactitude et validation des données : Méthodes pour assurer la qualité des données

L'évaluation de l'exactitude des données, est un aspect important du processus d'analyse.

Objectifs d'apprentissage

L'exactitude est l'une des 6 dimensions de la qualité des données qui sont pris en compte à statistique Canada. L'exactitude s'entend de la mesure dans laquelle les données rendent compte de la vérité ou de ce qui s'est réellement produit. Dans cette vidéo, nous présenterons des méthodes pour mettre en lumière le concept d'exactitude sur le plan de la validité et de la précision. Nous discutons également des méthodes de validation et de vérification de l'exactitude des valeurs de données.

Étapes du cheminement des données

(Text à l'écran: Étapes du cheminemnt des données est appuyé par une base d'intendance, de métadonnées, de normes et de qualité)

(Diagramme du Cheminement des données: Étape 1 - définir, trouver, recueillir; Étape 2 - explorer, nettoyer, décrire; Étape 3 - analyser, modéliser; Étape 4 - Raconter l'histoire. Le cheminement des données est supporté par une base d'intendance, de métadonnées, de normes et qualité.)

Ce diagramme est une représentation visuelle des étapes permettant de transformer les données en connaissances.

Étape 2: Explorer, nettoyer et décrire

(Diagramme du Cheminement des données avec un attention sur l'Étape 2 - explorer, nettoyer, décrire.)

Les données sont exactes lorsqu'elle décrit adéquatement les phénomènes qu'elles sont conçues pour mesurer ou représentés. Avant d'utiliser des données, nous devrions les explorer pour en apprendre davantage sur les variables et les concepts et aussi pour découvrir si elle comporte des erreurs, des incohérences ou des lacunes. Cette vidéo examine différentes façons d'explorer l'exactitude des données.

Qu'entend-on par des données « exactes »?

Qu'entend t-on par des données exactes? Des données exactes reflètent la réalité, autrement dit, leurs valeurs sont valides, ne sont ni absentes ni manquantes et se trouvent dans une fourchette valide. Des données exactes sont également correctes. Examinons d'abord le concept de données valides. L'une des méthodes pour explorer la validité de données est d'effectuer ce qu'on appelle une analyse VIMA. Cet acronyme signifie Valides, Invalides, Manquantes et Aberrantes.

Valeurs invalide

(Tableau contenant une liste de numéro d'identification du ménage. Des détails sur les dépenses totales pour la nourriture et les dépenses totales pour le logement sont révéller pour chaque ménage. Une des céllules contienne le nom d'une couleur au lieu d'une valeur monétaire.)

Sur la diapositive précédente, nous avons défini qu'une donnée valide n'est ni absente ni manquante et qu'elle se situe à l'intérieur d'une fourchette valide de valeur. Inversement, une donnée invalide affiche des valeurs qui paraissent impossible. Un exemple serait une variable qui devrait afficher un montant en dollars comme pour des dépenses liées au logement, mais qui indique plutôt la valeur bleu. Cette réponse n'a aucun sens.

Valeurs manquantes

(Tableau similaire à la dernière diapositives. La seule différence est qu'au lieu d'un nom d'une couleur, il y a maintenant une cellule vide.)

Les valeurs sont manquantes lorsqu'une cellule est laissée vide. Par exemple, on s'attend à ce qu'il y ait un 0 ou un chiffre quelconque pour la valeur des dépenses totales.

Valeurs aberrantes

(Tableau qui liste le nom d'un groupe d'individues. Associer à chaque noms sont les profession et l'âge. Dans la colonnes des âges, on y retrouve un individue avec l'âge de 103 ans et un autre avec un âge de 301 ans.)

Les valeurs aberrantes sont extrêmement basses ou extrêmement haute par rapport à ce à quoi on s'attendrait. Certaines valeurs aberrantes peuvent être véritable. Une personne peut être âgée de 103 ans, bien que ce soit assez rare. Dans d'autres cas, les valeurs aberrantes sont également Invalides comme une valeur de 301 pour indiquer l'âge d'un individu vivant.

Analyse VIMA

L'une des façons d'effectuer une analyse VIMA consiste à produire une distribution de fréquence des variables clés et à examiner les proportions de valeurs valides invalides, manquantes et aberrantes. Quelle proportion des valeurs valides est acceptable? Est ce 100 pour 100 ou plus bas? Examiner la fourchette de valeur pour les variables clés. En attenant pas compte des valeurs manquantes Invalides pour un instant, la fourchette et la distribution des valeurs sont-elles réalistes? Lorsque les valeurs sont invalides, où manquantes est-il facile de déterminer si elles devraient indiquer 0 sans objet ou sinon une autre valeur? Une autre façon d'explorer la validité des données consiste à faire appel à des techniques de visualisation de données comme celles de les examiner sous forme de graphiques. C'est là une façon simple et rapide de détecter les tendances ou les anomalies dans les données. Il existe des outils logiciels pour détecter les valeurs aberrantes et visualiser les données. N'oubliez pas une valeur inhabituelle n'est pas nécessairement erronée.

Example: Détecter des valeurs invalides

(Diagramme à barre présentant les différent types de chaussures et les nombre de vente associer à chaqu'une. De la gauche, les types sont: Bottes d'hiver; Bottes en caoutchouc; Sandales; Chaussures de course; Parapluies.)

Dans cet exemple fictif, nous utilisons un diagramme à barres, une méthode de visualisation toute simple pour examiner la distribution de fréquence de différents types de chaussures vendues en ligne. Les hauteur des barres semblent toutes se situer à l'intérieur de la même fourchette. Toutefois, nous remarquons sur l'axe horizontal que l'une des barres concerne des parapluies. Un parapluie n'a rien à voir avec des articles de chaussure. C'est une donnée invalide. Une enquête plus poussée est nécessaire pour déterminer si la donnée indiquée par la barre représente effectivement un autre type de chaussures et que le terme parapluie a été attribué par erreur. Ou si cette donnée sur des parapluies s'est retrouvée par erreur dans le tableau des ventes de chaussures.

Exemple: Détecter des valeurs manquantes

(Tableu présentant la dsitribution des pommes (A), Orange (O) et Bananes (B). Les colonnes qui suivent représente la fréquence des valeurs = 0 (A=0; O=0; B=1), 3 (A=1; O=0; B=0), 5 (A=0; O=2; B=0), 8 (A=0; O=0; B=2). La dernière colonne représente la fréquence des valeurs manquantes (A=5; O=7; B=6).)

Dans cet exemple, nous avons créé un tableau de distribution des fréquences de valeur pour 3 variables, pommes, oranges et bananes. La colonne à l'extrême droite montre combien de fois il manquait des valeurs pour chacune de ces 3 variables. N'oubliez pas que des valeurs manquantes ne sont pas la même chose que des valeurs égales à 0. Dans cet exemple, il y a beaucoup de valeur manquante par rapport au nombre de valeur non manquante. Nous tenterions probablement de remplir ces trous avant d'utiliser ces données.

Exemple: Correction des valeurs manquantes

(Texte sur l'écran: Il y a de nombreuses valeurs manquantes dans ce tableau. Certaines sont faciles à entrer, par simple addition ou soustraction. Pour d'autre par contre, il est nécessaire de formuler certaines hypothèses ou de trouver des renseignements supplémentaires.)

(Tableau présenter sur l'écran est un réarangement du dernier tableau ou chaque colonne représente la ligne du dernier tableau, les Pommes, les Oranges et le total de fruits (TF). Les valeur sont présenter comme suit: Ligne 1 (A=3; O=5; TF=-); Ligne 2 (A=-; O=5; TF=8); Ligne 3 (A=-; O=-; TF=0); Ligne 4 (A=-; O=-; TF=8).)

Voici comment corriger les valeurs aberrantes relevées à la diapositive précédente. Dans ce tableau des données réelles des valeurs, on voit où se situe les valeurs manquantes. À la première ligne, il est facile de déterminer que la valeur manquante du nombre total de fruits devrait être 8 étant donné qu'il y a 3 pommes et 5 orange. De la même façon, il n'est pas difficile de comprendre que la valeur manquante à la 2e ligne pour les pommes et de 3. Cependant, à la 3e ligne, la valeur 0 pourrait être correcte. Au quel cas les valeurs manquantes pour les pommes et les oranges devrait également être 0. Toutefois, si 0 n'est pas la bonne valeur, on n'est pas en mesure de déterminer quelle serait la valeur des 3 variables. À la 4e ligne si 8, est effectivement la valeur du total, alors on a pas assez d'informations pour connaître la valeur des pommes et celle des oranges. On sait seulement qu'elle se situe entre 0 et 8.

Exemple: Détection des valeurs aberrantes

(Un nuage de point se retrouve dans un graphique où tout les points, à l'exception d'un point rouge, produisent une tendance linéaire. Ce dernier est représenter par 2 ligne de tendance.)

(Texte sur l'écran: Cette valeur est plus éloignée de toutes les autres valeurs de données que ce à quoi l'on pourrait s'attendre.)

Dans cet exemple inventé les points de données représentées par des points verts et rouges ont été tracées sur un axe horizontal et un axe vertical. Deux méthodes différentes ont été utilisées pour estimer la tendance centrale des valeurs des données. Ces tendances sont représentées par la droite rouge et la droite bleu. La plupart des valeurs de données se trouvent sur les 2 droite d'ajustement ou à proximité de celles-ci. Par contre, le point rouge trouve vraiment loin des droites. Il s'agit d'une valeur aberrante. Il est nécessaire de mener une enquête plus approfondie pour déterminer ce qui distingue tellement ce point de données et décider ce qu'il convient d'en faire. Certaines valeurs aberrantes sont corrects, même si elles sont inhabituelles.

Explorer l'exactitudes des données

(Texte sur l'écran: Microdonnées: Par exemple, une liste de personnes comprenant leur profession et leur date de naissance. Macrodonnées: Ces données sont moins détaillées, un peu comme lorsque l'on fait un zoom arrière avec un appareil photo. Par exemple, les microdonnées générées à partire d'une liste de personnes, de leur profession et de laeur date de naissance pourraient être un dénombrement de personnes classées selon leurs âges et leurs catégories professionnelles. Les microdonnées sont plus granulaires que les macrodonnées, elles sont à une échelle plus détaillée.)

Comme cela a été mentionné précédemment, les données exactes sont à la fois valide et correctes. Nous avons parlé de l'analyse VIMA comme façon d'explorer la validités des données. Il s'agit maintenant de mettre l'accent sur l'exactitude des données. Mais tout d'abord, il faut distinguer le fait d'examiner des valeurs de données individuelles ou microdonnées et celui d'étudier ces mêmes valeurs, résumer à un niveau plus élevé, soit les macrodonnées. Les microdonnées sont plus granulaire que les macrodonnées. Elles sont à une échelle plus détaillées.

Explorer l'exactitude des données

(Exemple 2: Une personne âgée de 12 ans possède une maîtrise en biologie, est mariée et traville à l'Université du Manitoba. Ext-ce plausible?)

L'une des façons d'explorer l'exactitude des données consiste à comparer les données avec d'autres renseignements connexes. On pourrait examiner le caractère raisonnable des valeurs d'un seul enregistrement de données. Certaines variables devraient-elles, être logique si on les combinent? Par exemple, si on a un total, et les parties qui constituent ce total. La somme de ces parties est-elle exacte? Un autre exemple consiste à considérer l'âge actuel d'une personne et à le comparer au plus haut niveau de scolarité atteint à l'état matrimonial ou la situation d'emploi. Est-ce plausible?

Il est également possible d'examiner la concordance avec les normes. Au Canada par exemple, le premier caractère des codes postaux dépend de la province. Tous les codes postaux de Terre-Neuve et labrador commencent par la lettre A tous ceux de la nouvelle-écosse commence par la lettre B et ainsi de suite. Si ce n'est pas le cas, l'un des éléments d'informations et inexacte.

(Pour répondre à ces questions, il faut disposer de données fiables sur le monde réel.)

Une autre façon d'explorer l'exactitude des données consiste à comparer le contenu des données avec la situation dans le monde réel. Vous pourriez calculer des statistiques sommaires comme les totaux et les moyennes relatives aux ventes d'automobiles au Canada et établir des comparaisons entre les provinces ou au fil du temps. Les chiffres sont-ils plausibles? L'industrie automobile surveille t-elle ces chiffres? Et comment vos chiffres se comparent t-ils aux siens?

Conseils pour explorer l'exactitude des données: Partie 1

Voici quelques conseils pour faciliter les comparaisons. Avant d'essayer de comparer des valeurs de données, exprimez-les dans un format commun. La date du 12/6/2018 semblera différente si dans un cas, le mois est inscrit en premier et que dans un autre, c'est le jour qui l'est. En plus des formats normalisés utilisez des abréviations, des notions et des définitions conventionnelles dans la mesure du possible, au Canada par exemple, il existe un sigle à 2 lettres normalisés pour le nom des provinces et des territoires.

Conseils pour explorer l'exactitude des données: Partie 2

La visualisation des données est une excellente façon de repérer les anomalies dans les données. Avant de commencer, penser au degré d'inexactitude que vous pouvez tolérer dans les données. Qu'est-ce qui est considéré comme suffisant pour ce que vous voulez faire? Après avoir repérer les écarts, servez-vous de l'automatisation pour corriger les erreurs de façon efficace, uniforme et objective.

Description de l'exactitude des données

(Text on screen: Documentez clairement: Accroître la validité et l'exactitude des données constitue un moyen de nettoyer les données. Cette documentation pourrait présenter un intérêt pour: Les utilisateurs de données et les personnes qui devront explorer, nettoyer et décrire des données similaires.)

Avant d'utiliser les données ou de les transmettre aux intervenants qui le feront, assurez-vous de décrire l'exactitude des données. La documentation décrivant les données est parfois appelé métadonnées. Documenter la façon dont vous avez exploré la validité et l'exactitude des données et celles dont vous avez nettoyé ou amélioré les données. Les utilisateurs de données utiliserons ces renseignements pour savoir comment se servir des données de façon responsable.

Recap of key points

Cette vidéo présentait les concepts de base de l'exactitude et de la validation des données. L'analyse VIMA recommande l'utilisation de la distribution de fréquence pour des variables clés afin d'évaluer les proportions de valeurs valides invalides, manquantes et aberrantes. Les techniques de visualisation des données, l'utilisation de formats communs et l'automatisation permettent d'obtenir des résultats efficaces et correctes. De plus, une documentation claire est essentielle pour mieux comprendre les méthodes utilisées afin d'explorer et valider les données.

(Le mot-symbole « Canada » s'affiche.)

Qu'avez-vous pensé?

S'il vous plaît nous donner vos commentaires afin que nous puissions mieux fournir des produits qui répondent aux besoins de nos utilisateurs.

Le cheminement des données : éléments d'une navigation réussie

Numéro de catalogue : 892000062020007

Date de diffusion : le 23 septembre 2020 Mise à jour : le 22 octobre 2021

Dans cette vidéo, vous apprendrez les étapes et les activités liées au cheminement des données, ainsi que les bases sur lesquelles il repose. Aucune connaissance préalable n'est requise.

Le cheminement des données représente les principales étapes du traitement des données. Le cheminement n'est pas nécessairement linéaire; il vise à représenter les différentes étapes et activités qui pourraient être entreprises en vue de convertir les données en renseignements utiles. Toutes les personnes qui utilisent les données n'exécuteront pas nécessairement toutes ces étapes.

Aucune connaissance préalable n'est requise.

Étape du parcours des données
Base
Compétence des données
  • Découverte des données
  • Gestion et organisation des données
Audience
Essentiel
Conditions préalables suggérées
s.o.
Durée
6:12
Coût
Gratuit

Voir la vidéo

Le cheminement des données : éléments d'une navigation réussie - Transcription

(Le symbole et le mots-symbole de Statistique Canada apparaissent sur l'écran: "Le cheminement des données : éléments d'une navigation réussie")

Le cheminement des données: Éléments d'une navigation réussie

Les vidéos de formation de cette série s'articulent autour du cheminement des données. Cette vidéo décrit les éléments d'une navigation réussie.

Objectifs d'apprentissage

(Text à l'écran: Étapes et activités du cheminement des données; Base du cheminement des données)

Dans cette vidéo, vous apprendrez quelles sont les étapes et les activités liées au cheminement des données, ainsi que les bases sur lesquelles il repose. Aucune connaissance préalable n'est requise.

Étapes du cheminement des données

(Text à l'écran: Étapes du cheminemnt des données est appuyé par une base d'intendance, de métadonnées, de normes et de qualité)

(Diagramme du Cheminement des données: Étape 1 - définir, trouver, recueillir; Étape 2 - explorer, nettoyer, décrire; Étape 3 - analyser, modéliser; Étape 4 - raconter l'histoire. Le cheminement des données est appuyé par une base d'intendance, de métadonnées, de normes et de qualité.)

Le cheminement des données représente les principales étapes du traitement des données. Ce cheminement n'est pas nécessairement linéaire, il vise à représenter les différentes étapes et activités qui pourraient être entreprises en vue de convertir les données en renseignements utiles.

Toutes les personnes qui utilisent des données ne exécuteront pas nécessairement toutes ces étapes. Par exemple, les données sur lesquelles vous travaillez ont peut-être déjà été recueillies et nettoyées. Elles sont donc prêtes à être analysées. Dans ce cas, vous n'auriez qu'à suivre les deux dernières étapes.

Étape 1 : Définir, trouver et recueillir

(Diagramme du Cheminement des données avec un attention sur « Définir, trouver, recueillir ».)

La première étape consiste à définir la question à laquelle vous devez répondre, ou la lacune statistique que vous devez combler. Vous devez ensuite trouver les données requises pour répondre à la question ou pour combler cette lacune. Si les données en question n'existent pas, vous devrez cherché un moyen de les recueillir. Cela pourrait être fait, par exemple, au moyen d'une nouvelle enquête.

Lors de cette première étape, vous mettrez à profit une ou plusieurs des compétences suivantes, découverte de données, collecte de données, gestion et organisation des données.

Étape 2 : Explorer, nettoyer et décrire

(Diagramme du Cheminement des données avec un attention sur « Explorer, nettoyer, décrire ».)

Une fois vos données en main, la prochaine étape consiste à mieux les connaître. Si vous avez déjà une certaine connaissance des données requises, vous saurez mieux à quoi vous attendre. Par contre, s'il s'agit de données qui sont nouvelles pour vous, prenez le temps d'étudier leur format et les variables et de repérer les éventuelles erreurs et valeurs manquantes. Il pourrait être nécessaire de nettoyer les données avant de les utiliser à des fins d'analyse. Il est important de documenter vos constatations ainsi que les mesures que vous avez prises pour nettoyer vos données.

À la fin de cette étape, les données seront prêtes à être analysées. À cette étape, vous utiliserez l'une des compétences suivantes ou les deux: nettoyage de données et exploration de données.

Étape 3 : Analyser et modéliser

(Diagramme du Cheminement des données avec un attention sur « Analyser, modéliser ».)

Si vous procédez à une analyse pour décrire un phénomène, tirer des conclusions au sujet d'une population, ou formuler des prédictions au sujet des événements futurs, le cheminement des données se poursuit. Le but de l'analyse et de la modélisation est d'utiliser des techniques statistiques pour transformer les données en renseignements afin d'en tirer des observations utiles qui permettent de combler les besoins en information tels que définis précédemment. À cette étape, vous utiliserez une ou plusieurs des compétences suivantes: analyse de données, modélisation de données et évaluation des décisions à prendre en fonction des données.

Étape 4 : Raconter l'histoire

(Diagramme du Cheminement des données avec un attention sur « Raconter l'histoire ».)

Les renseignements statistiques obtenus à la suite des travaux d'analyse et de modélisation sont plus faciles à assimiler s'ils sont présentés sous forme d'histoire ou de narration. Il peut s'agir d'un document de recherche, d'une infographie, d'un document d'information à l'intention de la direction ou d'une combinaison de ces méthodes et d'autres méthodes de présentation de données. À cette étape, vous utiliserez une ou plusieurs des compétences suivantes: interprétation de données, visualisation de données et narration.

Bâtissez votre cheminement des données sur des bases solides

(Diagramme simplifiée du cheminement des données supporté par 4 colonnes, représentant les 4 bases: intendance, métadonnées, normes, qualité.)

Pour suivre avec succès les étapes du cheminement des données, il est essentiel de bâtir votre travail sur des bases solides d'intendance, de métadonnées, de normes et de qualité.

L'intendance englobe toutes les activités visant à régir et à protéger les données.

Les métadonnées doivent décrire l'ensemble du traitement et des manipulations dont les données ont fait l'objet.

Les méthodes, les pratiques et les classifications standard doivent être appliquées tout au long du processus.

Et la qualité doit être gérée de façon proactive tout au long du processus et tous les produits livrables doivent être assortis d'indicateurs de qualité pertinent.

Résumé des points principaux

En résumé, voici les étapes du cheminement des données: Définir, trouver, recueillir; Explorez, nettoyer, décrire; Analyser et modéliser; puis Raconter l'histoire.

Les utilisateurs des données n'exécuteront pas nécessairement eux-mêmes toutes ces étapes. Par exemple, vous pourriez être en mesure d'obtenir des données qui ont déjà été recueillies et nettoyé et qui se prête immédiatement à une analyse. L'intendance, les métadonnées, les normes et la qualité représente autant de piliers qui sous-tendent l'ensemble du cheminement des données.

En apprendre davantage

Pour en apprendre davantage, vous pouvez visionner les autres vidéos de cette série dans l'ordre de votre choix. Si vous hésitez dans votre choix de la prochaine vidéo, nous vous recommendons de visionner celles portant sur les types de données et comment recueillir des données.

(Le mot-symbole « Canada » s'affiche.)

Qu'avez-vous pensé?

S'il vous plaît nous donner vos commentaires afin que nous puissions mieux fournir des produits qui répondent aux besoins de nos utilisateurs.

Que sont les données? Introduction à la terminologie et aux concepts relatifs aux données

Numéro de catalogue : 892000062020006

Date de diffusion : le 23 septembre 2020 Mise à jour : le 25 octobre 2021

Cette vidéo aborde des termes et des concepts relatifs aux données, comme les ensembles de données, les bases de données, la protection des données, les variables de données, les microdonnées et les macrodonnées, ainsi que les renseignements statistiques.

Aucune connaissance préalable n'est requise.

Étape du parcours des données
  • Base
Compétence des données
Sensibilisation aux données
Audience
Essentiel
Conditions préalables suggérées
s.o.
Durée
8:08
Coût
Gratuit

Voir la vidéo

Que sont les données? Introduction à la terminologie et aux concepts relatifs aux données - Transcription

(Le symbole et le mots-symbole de Statistique Canada apparaissent sur l'écran: "Que sont les données? Introduction à la terminologie et aux concepts relatifs aux données")

Que sont les données? Introduction à la terminologie at aux concepts relatifs aux données

Cette vidéo présentera certains concepts et termes de base relatifs aux données.

Objectifs d'apprentissage

Cette vidéo aborde des termes et des concepts relatifs aux données comme les ensembles de données, les bases de données, la protection des données, les variables de données, les microdonnées et les macrodonnées, ainsi que les renseignements statistiques. Aucune connaissance préalable n'est requise.

Étapes du cheminement des données

(Text à l'écran: Étapes du cheminemnt des données est appuyé par une base d'intendance, de métadonnées, de normes et de qualité)

(Diagramme du Cheminement des données: Étape 1 - définir, trouver, recueillir; Étape 2 - explorer, nettoyer, décrire; Étape 3 - analyser, modéliser; Étape 4 - Raconter l'histoire. Le cheminement des données est supporté par une base d'intendance, de métadonnées, de normes et qualité.)

Le cheminement des données représentent les étapes que les données doivent franchir pour que nous puissions raconter une histoire. Nous tenterons de répondre à la question, que sont les données en tenant compte de ces différentes étapes? Tout d'abord, examinons les données dans le contexte de la recherche, de la collecte et de la protection des données.

Que sont les données?

Les données sont des faits ou des chiffres qui portent sur un objet ou un phénomène. Les objets existent et les phénomènes se produisent tout simplement. Ce sont les gens qui créent des données. Nous mesurons, comptons,observons et décrivons les éléments qui nous entourent. Nous consignons ce que nous trouvons au moyen de symboles et d'images. Voilà ce que sont les données.

D'où viennent les données?

D'où viennent les données? Les données viennent de partout. Par exemple, les médecins recueillent des données sur notre santé et notre bien-être. Les commerces recueillent des données sur nos achats. Les enquêtes permettent de recueillir des données sur nos habitudes. Les scientifiques recueillent des données sur les conditions climatiques telles que la température et la vitesse du vent. Ces données sont parfois appelées données d'observation de la terre. Ce ne sont là que quelques exemples. En cette ère numérique, les données sont littéralement littéralement partout autour de nous.

Comment les données sont-elles organisées?

Les données peuvent être organisées de façon structurées, notamment au moyen de tableaux, graphiques, cartes. Les données peuvent aussi être organisées de façon non structurées, c'est-à-dire lorsqu'elles sont dans des textes ou des documents.

Protection des données

Les administrateurs de données ont la responsabilité d'être de bons intendants et d'assurer la protection, la confidentialité, et la sécurité des renseignements personnels identificatoires. Les renseignements personnels identificatoires comprennent notamment tout renseignement qui permettraient d'identifier directement ou indirectement une personne, une entreprise ou une organisation.

Étapes 2: Explorer, nettoyer et décrire

(Diagramme du Cheminement des données avec un attention sur l'Étape 2 - explorer, nettoyer, décrire.)

Maintenant, examinons les données dans la prochaine étape de leur cheminement. Quand nous avons des données, nous voulons les explorer. Si nous trouvons des erreurs dans les données, nous essayons de les corriger.

Ensemble de données et bases de données

À quoi ressemble les données dans ces cas? Les données sont souvent organisées en tableau, composées de lignes et de colonnes. Lorsqu'ils sont en format électronique, ils sont appelés "ensembles de données". Un ensemble de données organisé à une fin particulière est parfois appelé "base de données". Il existe des progiciels pour gérer les bases de données comme Oracle, SQL et Microsoft Access.

Bases de données relationnelles

Une base de données relationnelle, est une collection organisée de ensemble de données qui sont liés les un aux autres en fonction de valeurs clés. Par exemple, une base de données relationnelle sur un système scolaire pourrait contenir un ensemble de données répertoriant des listes d'école, un autre comprenant les classes dans les écoles et un autre portant sur les élèves dans les classes. Il existe une façon de relier tous les ensembles de données dans une base de données relationnelle. Dans cet exemple, il pourrait y avoir une variable d'identification pour une école dans les 3 ensembles de données afin qu'il soit possible de trouver l'ensemble des classes et des élèves associé à une école particulière.

Que contient un ensemble de données?

Les données réelles dans un ensemble ou une base de données sont organisées en variable. Certaines des variables représentent les mesures, les chiffres, les observations ou les descriptions dont nous avons parlé plustôt. D'autres variables permettent d'identifier ce qui a été mesuré, compté, observé, ou décrit. Les données ou un enregistrement ou une ligne représente une unité d'observation sont appelés microdonnées. Il est fortement recommandé d'explorer et de nettoyer le microdonnées avant de les analyser ou de les utiliser à d'autres fins. Pour ce faire, il faut appliquer des méthodes statistiques de base aux variables de microdonnées. Pour obtenir de plus amples renseignements, regarder les vidéos sur la tendance centrale et là dispersion.

Étape 3: Analyser et modéliser

(Diagramme du Cheminement des données avec un attention sur l'Étape 3 - analyser, modéliser.)

Pour découvrir les relations entre les variables où trouver des tendances au fil du temps, nous devons analyser les microdonnées nettoyées. L'étape d'analyse est aussi appelé modélisation, établissement d'inférence et analyse des données.

Pour en savoir plus sur l'analyse des données, regarder la série de vidéos analyse 101.

Différents états des données

Voici une façon pratique de résumer les différents états des données. Les microdonnées désignent des ensembles de données dans lesquelles un enregistrement représente une unité d'observation.

Les microdonnées sont des unités élémentaires, qu'il s'agisse d'utiliser des données pour fournir des services, faire respecter des règlements, répondre à des questions de recherche ou créer des politiques.

Les macrosdonnées désignent des ensembles de données dans lesquelles des enregistrements ont été regroupés ou agrégés. L'analyse statistique, ou l'analyse des données peut être réalisée à partir de microdonnées ou de macrodonnées nettoyées.

Les métadonnées comprennent la documentation ou les renseignements contextuels et facilitent l'utilisation appropriée des données.

Étape 4: Raconter l'histoire

(Diagramme du Cheminement des données avec un attention sur l'Étape 4 - Raconter l'histoire.)

L'analyse statistique ou l'analyse des données est une façon de produire des renseignements statistiques. La dernière étape du cheminement des données consiste à raconter l'histoire qui se forme à partir des renseignements statistiques.

Renseignements statistiques

Les renseignements statistiques sont bien différents des données originales sur lesquels ils sont fondées. Les données ont été synthétisées et transformées pour mettre en lumière des renseignements difficile à discerner dans les microdonnées. Les renseignements statistiques qui proviennent de l'analyse et de la modélisation sont plus faciles à comprendre s'ils sont présentés sous forme d'histoire. Elle peut être racontée sous forme de document de recherche, d'infographie, d'articles dans les médias, de produits de visualisation des données, ou d'une combinaison de ces méthodes et d'autres méthodes de présentation des données.

Résumé des principaux points

Les données sont des faits ou des chiffres sur un objet ou un phénomène. Les variables des données sont stockées dans un ensemble de données. Les administrateurs de données ont la responsabilité d'assurer la protection, la confidentialité et la sécurité des renseignements identificatoires. L'analyse statistique ou l'analyse des données est réalisée à partir de microcrodonnées, ou de macrodonnées nettoyées aux fins de production de renseignements statistiques. Les renseignements statistiques permettent de raconter l'histoire des données.

En apprendre davantage

Pour en apprendre davantage sur les données, jeter un coup d’œil aux vidéos portant sur le cheminement des données, les types de données et la collecte des données.

(Le mot-symbole « Canada » s'affiche.)

Qu'avez-vous pensé?

S'il vous plaît nous donner vos commentaires afin que nous puissions mieux fournir des produits qui répondent aux besoins de nos utilisateurs.

Recueillir des données : éléments à prendre en considération avant de recueillir des données

Numéro de catalogue : 892000062020005

Date de diffusion : le 23 septembre 2020 Mise à jour : le 25 november 2021

À la fin de cette vidéo, vous devriez comprendre comment déterminer les données dont vous avez besoin, où trouver les données, comment recueillir les données (qu'elles proviennent de sources existantes ou d'une enquête à mener) et comment assurer la sécurité des données.

Prenez note que le fait de recueillir des données dans le cadre d'une enquête est habituellement appelé la collecte des données.

Étape du parcours des données
Définir, trouver, recueillir
Compétence des données
Collecte des données
Audience
Essentiel
Conditions préalables suggérées
s.o.
Durée
7:39
Coût
Gratuit

Voir la vidéo

Recueillir des données : éléments à prendre en considération avant de recueillir des données - Transcription

(Le symbol de Statistics Canada et le mot-symbol du Canada est présent avec le titre suivant: "Recueillir des données : éléments à prendre en considération avant de recueillir des données")

Recueillir des données: Éléments à prendre en considération avant de recueillir des données

La collecte de données consiste d'abord à déterminer les données dont vous avez besoin, puis à savoir où les trouver, comment les obtenir et comment assurer leur sécurité. Cette vidéo vous présente les éléments dont vous devriez tenir compte au moment de recueillir des données.

Objectifs d'apprentissage

À la fin de cette vidéo, vous devriez comprendre comment déterminer les données dont vous avez besoin, où trouver les données, comment recueillir les données qu'elles proviennent de sources existantes, ou d'une enquête à mener et comment assurer la sécurité des données. Prenez note que le fait de recueillir des données dans le cadre d'une enquête est habituellement appelé la collecte des données.

Étapes du cheminement des données

(Text à l'écran: Étapes du cheminemnt des données est appuyé par une base d'intendance, de métadonnées, de normes et de qualité)

(Diagramme du Cheminement des données: Étape 1 - définir, trouver, recueillir; Étape 2 - explorer, nettoyer, décrire; Étape 3 - analyser, modéliser; Étape 4 - Raconter l'histoire. Le cheminement des données est supporté par une base d'intendance, de métadonnées, de normes et qualité.)

Ce diagramme est une représentation visuelle du cheminement des données, de la collecte des données à l'exploration, au nettoyage, à la description et à la compréhension des données, à l'analyse des données et enfin à la communication avec les autres de l'histoire que racontent les données.

Étapes 1: Chercher, recueillir et protéger

(Diagramme du Cheminement des données avec un attention sur l'Étape 1 - Chercher, Receuillir, Protéger.)

Le fait d'examiner la façon de recueillir des données fait partie de l'étape de la recherche, de la collecte et de la protection des données au cours du cheminement des données. Certaines données sont recueillies à des fins statistiques ou de recherche. Dans d'autres cas, les données sont recueillies à des fins réglementaires, ou pour fournir un service personnalisé aux canadiens et canadiennes. Quel que soit le but de la collecte des données, les aspects à prendre en considération sont semblables.

Déterminer les données dont vous avez besoin

La première chose à prendre en considération avant de recueillir des données, c'est de bien articuler les questions auxquelles vous essayer de essayez de répondre. A propos de qui voulez-vous tirer des conclusions? S'agit il de toute la population canadienne ou de toutes les entreprises d'un certain secteur de l'économie? Il s'agit de la population cible.

Ensuite, quelle est l'unité individuelle que vous voulez examiner? S'agit il d'une personne, d'une famille, d'un ménage ou d'une entreprise? C'est ce que l'on appelle l'unité d'observation. Quelle est la période que vous voulez examiner? Voulez-vous examiner une seule période? Ou voulez-vous avoir des données pour plusieurs périodes? Ensuite, de quel niveau de qualité avez-vous besoin dans les données?

Lorsqu'on examine différentes sources, il faut tenir compte de la façon dont les données ont été créés et de la raison pour laquelle elles ont été. Cela va-t-il appuyer le niveau d'analyse que vous voulez faire? Quelles sont les caractéristiques ou les attributs qui vous intéressent? Sont-ils tous disponibles dans une seule source de données? Ou allez-vous devoir utiliser deux ou plusieurs sources de données différentes? Il est important de savoir dès le départ ce que vous cherchez, puis d'évaluer toutes les sources de données potentielles en fonction de ces critères lorsque vous décidez lesquelles utiliser.

Où trouver les données

Les sources ouvertes sont le premier endroit où chercher des données. Le gouvernement du Canada met à la disposition de tous les canadiens et toutes les canadiennes des données en abondance dans le portail de données ouvertes. Statistique Canada a des fichiers de microdonnées à grande diffusion des produits de données agrégées et de nombreux produits de de données gratuit à télécharger. Les sources en ligne sont également une option. D'autres sources de données sont également disponibles, mais avec certaines restrictions quant aux personnes qui peuvent les utiliser, ou moyennant un coût. Statistique Canada offre aux chercheurs l'accès aux données par l'entremise des centres de données de recherche.

Statistique Canada offre également un accès à distance aux données sous certaines conditions. Sous certaines conditions, les fournisseurs de services comme les compagnies d'internet et d'électricité offrent des produits de données, parfois contre rémunération. Si aucune données existantes ne répond à vos besoins, vous pouvez faire une enquête pour recueillir de nouvelles données.

En dernier recours, nous voulons insister sur le fait que la réalisation d'une enquête devrait être un dernier recours. C'est de loin l'option la plus coûteuse et la plus complexe pour recueillir des données. Pour en savoir plus sur la façon de mener une enquête, veuillez consulter le cours les enquêtes de A à Z code 10H0085 sur le site web de Statistique Canada.

Comment recueillir les données

La première étape de la collecte des données consiste à préparer un plan. Le plan doit préciser là où les sources de données qui sont utilisées et toutes les étapes à suivre pour obtenir les données, par exemple, quelles sont les étapes si un protocole doit être suivie? Est-il nécessaire de négocier avec le propriétaire des données? Estimer le temps qu'il faudra pour obtenir les données et le coût en ce qui concerne les frais, s'il y a lieu et les coûts d'entreposage. Tenez compte des compétences requises pour recueillir les données. Le plan pourrait comprendre une analyse de rentabilisation pour expliquer une demande de financement. Les données peuvent être structurées, c'est-à-dire qu'elles sont déjà dans une base de données quelconque ou dans un format ou les variables sont séparées. Ou elles peuvent être non structurées comme des données de capteurs ou des données de moissonnage du web, qui nécessiteront une certaine manipulation pour être converti en un format utilisable.

soient repérés. Une fois les données recueillies, les prochaines étapes cheminement des données.

Assurer la sécurité des données

indirectement, des sources d'information. La transparence de vos processus. assurer que vous respectez les exigences en matière de protection des exigences en matière de protection des renseignements personnels et de sécurité.

Consultez les ainsi que les politiques et lignes directrices de votre organisme en matière de protection des renseignements personnels et de sécurité dans le cadre de votre exercice de collecte des données.

Résumé des principaux points

En dernier recours faites une enquête pour recueillir de nouvelles données. Établissez un plan pour toutes les étapes de la collecte des données, assurez-vous de protéger les renseignements personnels et d'assurer la sécurité des données.

(Le mot-symbole « Canada » s'affiche.)

Qu'avez-vous pensé?

S'il vous plaît nous donner vos commentaires afin que nous puissions mieux fournir des produits qui répondent aux besoins de nos utilisateurs.

Types de données : comprendre et explorer les données

Numéro de catalogue : 892000062020004

Date de diffusion : le 23 septembre 2020 Mise à jour : le 25 november 2021

Dans cette vidéo, vous acquerrez des connaissances sur les données et les renseignements statistiques et explorerez les différents types de données. Après avoir regardé cette vidéo, vous serez en mesure de reconnaître des données catégoriques et quantitatives, des données nominales et ordinales, ainsi que des données discrètes et continues.

Étape du parcours des données
Explorer, nettoyer, décrire
Compétence des données
Collecte des données
Audience
Essentiel
Conditions préalables suggérées
s.o.
Durée
13:14
Coût
Gratuit

Voir la vidéo

Types de données : comprendre et explorer les données - Transcription

(Le symbole et le mots-symbole de Statistique Canada apparaissent sur l'écran : "Types de données : comprendre et explorer les données")

Types de données: comprendre et explorer les données

Il est important de définir les différents types de données et de les comprendre afin de choisir la méthode appropriée pour analyser les données et présenter les résultats.

Objectif d'apprentissage

Dans cette vidéo, vous acquerrez des connaissances sur les données et les renseignements statistiques et explorer les différents types de données. Après avoir terminé cette vidéo, vous serez en mesure de reconnaître des données catégoriques et quantitatives des données nominales et ordinales ainsi que des données discrètes et continues. Cette vidéo s'adresse aux personnes apprenantes qui veulent acquérir une compréhension de base des concepts et des types de données.

Étapes de cheminement des données

(Text à l'écran: Étapes du cheminemnt des données est appuyé par une base d'intendance, de métadonnées, de normes et de qualité)

(Diagramme du Cheminement des données: Étape 1 - définir, trouver, recueillir; Étape 2 - explorer, nettoyer, décrire; Étape 3 - analyser, modéliser; Étape 4 - Raconter l'histoire. Le cheminement des données est supporté par une base d'intendance, de métadonnées, de normes et qualité.)

Ce diagramme est une représentation visuelle du cheminement des données, de la collecte des données au nettoyage, à l'exploration, à la description et à la compréhension des données, à l'analyse des données et enfin à la communication avec les autres de l'histoire que racontent les données.

Étape 2: Explorer, nettoyer et décrire

(Diagramme du Cheminement des données avec un attention sur l'Étape 2 - explorer, nettoyer, décrire.)

L'exploration des différents types de données fait partie de l'étape, de l'exploration, du nettoyage et de la description du cheminement des données. La compréhension des divers types de données aidera à l'étape de l'analyse et de la modélisation.

Différence entre les données et les renseignements statistiques: Données

Les données sont les matières brutes à partir desquels l'information est obtenu.

Il peut s'agir par exemple, de chiffre, de texte, d'observation ou d'enregistrement. Les données peuvent être structurées, ce qui signifie qu'elles sont organisées en catégories où concepts prédéfinis comme des listes, de tableaux, des ensembles de données, des bases de données ou des chiffriers. Les données peuvent aussi être non structurées, ce qui signifie qu'elles ne sont pas organisées. Les données non structurées doivent être partitionnées où analysées pour devenir structurées avant que d'autres travaux puissent être effectués à leur sujet. Un paragraphe de texte est un exemple de données non structurées, car les idées principales doivent être extraites ou les phrases doivent être analysées en segments plus petits pour utiliser le texte comme données. Les images satellitaires sont un autre exemple de données non structurées. Les images doivent être interprétées et codées avec des renseignements comme le type de culture ou le type de bâtiment.

Différence entre les données et les renseignements statistiques: renseignements statistiques

Lorsque nous appliquons des méthodes statistiques aux données, nous produisons des renseignements statistiques, comme des moyennes, des totaux des ratios, des centiles, des distributions de fréquences et les estimations de paramètres. Les données ont un sens et une valeur, mais ceux-ci sont difficiles à déterminer. Les méthodes statistiques sont une façon de résumer les données pour que le sens devienne clair.

Transformer les données en renseignements statistiques

Les méthodes statistiques sont appliquées aux données pour obtenir une signification o trouver des relations. Le produit final représente des renseignements statistiques qui sont interprétés et utilisés pour accroître les connaissances sur le sujet en question.

Types de données

(Une image d'un diagramme d'arbre des types de données où l'origine commence avec le terme "données". Ce dernier s'embranche en 2 types de données qui est "catégoriques" et "quantitatives". Le type catégoriques s'embranche en 2 type de données catégoriques qui sont "nominales" et "ordinales". Le types quantitatives s'embranche en 2 types de données quantitatives qui sont "discètres" et "continues".)

Les données peuvent être divisées en 2 grandes catégories. Catégoriques et quantitatives. Les données catégories peuvent être subdivisées en données nominales et ordinales. Les données quantitatives peuvent être discrète ou continue et sont aussi appelées données numériques. Ces concepts sont examinés plus en détail dans les prochaines diapositives.

Données catégoriques

Les données catégories représentent des caractéristiques telles que le genre, les langues parlées, les types de maladie ou la taille des vêtements. Par exemple, les langues parlées par une personne peuvent être le français, l'anglais, l'allemand et l'espagnol. Les catégories sont appelées classe ou classifications. Toutes les valeurs possibles pour une caractéristique devraient être regroupées dans une seule catégorie.

Données catégoriques: nominales

Lorsque les catégories n'ont pas d'ordre inhérent, les données sont appelées données nominales. Les valeurs des données dans cette situation sont des étiquettes, des exemples de catégories sont les types de maladies ou les langues parlées. Les données nominales peuvent être analysées et résumées à l'aide de fréquence de proportion, de pourcentage, de tableaux croisés et du mode et elles peuvent être visualisées à l'aide de graphiques circulaires et à barres.

Données catégoriques: ordinales

Les valeurs ordinales représentent des données catégoriques qui peuvent être ordonnées. Les données ordinales sont très semblables aux données nominales. Mais comme le nom l'indique, l'ordre est important. Les catégories suivent un ordre logique, comme les tailles divisées ainsi, petit, moyen et grand. Comme pour les données nominales, les données ordinales peuvent être analysées, résumées et visualisées. Toutefois, les données ordinales peuvent aussi être décrites à l'aide de centiles, de médianes et de modes. Si les données ordinales sont numériques, des écarts interquartiles peuvent également être utilisées.

Par exemple, vous pourriez examiner l'écart interquartile des notes d'examens qui sont exprimés en pourcentage et organisé de la plus faible à la plus élevée. Mais il ne serait pas logique d'essayer de trouver l'écart interquartile des tailles de vêtements qui vont du très petit au très grand. Pour un exemple d'utilisation de l’écart interquartile, visionner la vidéo sur l'exploration des mesures de dispersion.

Données quantitatives

Les données quantitatives, aussi appelées données numériques, peuvent être discrète, ou continue. Lorsque les valeurs des données sont distinctes et séparées et qu'elles ne peuvent prendre que certaines valeurs, on les appellent des données discrètes. Les données discrètes ne peuvent être que comptées et non mesurées. Par exemple, le nombre de moutons sur une ferme.

Par contre, les données continues représentent des mesures et non des comptes. Les données continues peuvent prendre un nombre infini de valeurs, mais pour des raisons pratiques, elles sont mesurées à l'aide d'une échelle discrète. La distance est un exemple de données continues. Il s'agit de données continues, en ce sens qu'on pourrait continuer à ajouter ou à enlever de petites quantités et que la distance changerait. Toutefois, on utilise des centimètres ou des kilomètres pour mesurer la distance sur une échelle discrète.

Exemple: Quel age ont les membres d'une collectivité ?

Prenons un exemple portant sur différents types de données. Disons que nous voulons connaître l'âge des gens dans une collectivité pour pouvoir planifier des services et des activités appropriées pour eux. Dans notre exemple, nous avons les dates de naissance des gens d'une collectivité donnée.

Comme le temps peut être divisé d'un nombre infini de façon, par exemple, à chaque seconde ou chaque milliseconde, il s'agit d'une variable continue. Toutefois, pour des raisons pratiques, un hôpital consigne habituellement l'année le mois, le jour, l'heure et la minute de la naissance. À des fins administratives, nous ne faisons habituellement que déclarer l'année, le mois et le jour de naissance, ce qui signifie que nous utilisons une représentation discrète d'une variable continue.

Pour déterminer l'âge d'une personne à partir de sa date de naissance, nous calculons le temps entre la date actuelle et sa date de naissance. Pour plus de commodité, nous arrondissons son âge à l'année la plus proche, ce qui est également une valeur discrète.

Si notre collectivité était très petite, nous pourrions examiner tous les âges sur une liste et être en mesure de les interpréter. Toutefois, s'il y a beaucoup de gens, il serait très difficile de dresser une liste d'ages et de dire quoi que ce soit de significatif à leur sujet, surtout s'il n'était pas dans un ordre particulier.

Lorsqu'on convertit des données sur l'âge en renseignements statistiques, il est courant de regrouper les âge en catégories. Prenons l'exemple d'étendue de 10 ans. Maintenant, les données sont ordinales parce que les catégories d'âge sont classées selon un ordre particulier.

Exemple: Quel age ont les membres d'une collectivité ?

(Une image d'un tableau où la colonne à gauche et à droite représente les "catégories d'âges" et le "nombre de personnes", respectivement. Les résultats sont comme suit:

  • 0 à 10 ans : 5
  • 11 à 20 ans : 12
  • 21 à 30 ans : 25
  • 31 à 40 ans : 30
  • 41 à 50 ans : 23
  • 51 à 60 ans : 14
  • 61 à 70 ans : 3
  • 71 à 80 ans : 0
  • 81 ans ou plus : 0)

Prenons le même exemple, maintenant que nous avons des catégories d'âge, nous voulons savoir combien de personnes se trouvent dans chaque catégorie. La méthode statistique que nous appliquons aux données ordinales produit une distribution de fréquence qui est illustrée dans le tableau de droite.

Il devient maintenant très clair que là, collectivité est relativement jeune. Ce tableau contient des renseignements statistiques qui peuvent être utilisés par les planificateurs et les organisateurs communautaires pour planifier des services et des activités adaptées à l'âge des membres de la collectivité. Il est beaucoup plus facile d'interpréter les renseignements statistiques dans ce tableau que d'interpréter une longue liste de dates de naissance.

Données quantitatives: Prudence avec le 0

Il y a une valeur très importante avec laquelle il faut être prudent dans les données quantitatives. La valeur de 0.

Parfois 0 signifie qu'il n'y a rien. Par exemple, 0 pommes signifie qu'il n'y a pas de pommes. Parfois, 0 signifie quelque chose. Par exemple, 0 degré Celsius signifie qu'il fait froid à l'extérieur et non pas qu'il n'y a pas de température. Dans certains cas, les valeurs négatives sont valides. Par exemple, si j'ai moins 5$, cela signifie que je dois 5$. Cependant, parfois, les valeurs négatives ne sont pas valides. Par exemple, il ne peut pas y avoir moins 5 moutons dans une ferme. Tenez compte de la signification de 0 lorsque vous travaillez avec des données quantitatives.

Données quantitatives: Statistique de base

Il existe de nombreuses statistiques de base qui peuvent être utilisés avec des données quantitatives. En fait, toutes les statistiques de base présentées sur cette diapositive peuvent être utilisées de façon significative avec des données quantitatives.

(Texte à l'écran: Les statistiques de base comprennent les comptes, les rangs, les moyennes, les totaux et les variances. Elle comprennent aussi: les proportions, fréquences et tableaux croisés; mode, médiane, rangs et centiles; moyennes, totaux et variances.)

Types de données

N'oubliez pas que les données peuvent être catégoriques ou quantitatives. Les données catégories peuvent être nominales étiquette seulement ou ordinales dans un ordre particulier. Les données quantitatives peuvent être discrètes, chose que nous comptons, ou continues, chose que nous mesurons.

La prochaine diapositive donne des exemples de différents types de données. Et vous devrez déterminer le type de données dont il s'agit: nominales, ordinales, discrètes ou continues.

Pratique guidée: Quel est le type de données ?

Faites une pause et prenez le temps nécessaire pour déterminer si chaque exemple comprend des données nominale, ordinale, discrète où continue. Continuer de faire jouer la vidéo pour voir les réponses.

(4 différentes images ou il faut résoudre qu'elle type de données chaque image correspond: 1) Noms des instruments d'un orchestre; 2) Température à l'extérieur en ce moment; 3) Nombre de livres prises pendant les fêtes; 4) Rang dans un ménage selon l'âge.)

Êtes-vous d'accord avec nos suggestions?

Les noms des instruments d'un orchestre sont des données nominales catégorique parce qu'ils peuvent être dans n'importe quel ordre, bien que les joueurs de violon dirais probablement qu'il devrait passer en premier.

La température est une donnée quantitative continue parce qu'elle peut être mesurée par petites augmentations. Nous utilisons les degrés Celsius pour des raisons de commodité.

Le numéro 3 est une question piège. Le poids est mesurée en livre ou en kilogrammes, ce qui est continue. Mais la question posée est le nombre de livres prises, ce qui est un compte. Il s'agit donc de données quantitatives discrètes.

Enfin, le rang d'une personne dans un ménage, selon l'âge, est une donnée ordinaire catégorique parce que le rang, selon l'âge, signifie que les membres du ménage sont classés du plus jeune au plus âgé.

Comment vous en êtes-vous tirer?

Résumé les principaux points

Les données peuvent prendre la forme de chiffres, de textes, d'observations ou d'enregistrement. Les méthodes statistiques sont appliquées aux données pour produire des renseignements statistiques. Les données peuvent être nominales dans des catégories ou ordinales dans des catégories, dans un ordre particulier. Les données numériques ou quantitatives peuvent être continues au quel cas nous devons prendre des mesures ou discrètes au quel cas nous devons faire un compte. Nous avons aussi appris à faire preuve de prudence avec la valeur de 0 qui peut signifier différentes choses selon la nature des données.

(Le mot-symbole « Canada » s'affiche.)

Qu'avez-vous pensé?

S'il vous plaît nous donner vos commentaires afin que nous puissions mieux fournir des produits qui répondent aux besoins de nos utilisateurs.

Qualité des données en six dimensions

Numéro de catalogue : 892000062020001

Date de diffusion : le 23 septembre 2020 Mise à jour : le 2 november 2021

Nous sommes exposés aux données tous les jours, par exemple, dans les bulletins de nouvelles, les bulletins météorologiques et la publicité, mais comment savons-nous si ces données sont de bonne qualité?

Dans cette vidéo, on vous présentera les fondements de la qualité des données, qui peuvent se résumer en six dimensions, ou six façons différentes de penser à la qualité. Vous apprendrez également comment chaque dimension peut être utilisée pour évaluer la qualité des données.

Vous en apprendrez davantage sur les concepts de qualité de base, la qualité des données exprimée en six dimensions et les interactions entre ces dimensions.

Cette vidéo s'adresse aux personnes apprenantes qui veulent acquérir une compréhension de base de la qualité des données. Aucune connaissance préalable n'est requise.

Étape du parcours des données
Fondation
Compétence des données
Évaluation de la qualité des données
Audience
Essentiel
Conditions préalables suggérées
s.o.
Durée
9:59
Coût
Gratuit

Voir la vidéo

Qualité des données en six dimensions - Transcription

(Le symbol de Statistics Canada et le mot-symbol du Canada est présent avec le titre suivant: "Qualité des données en six dimensions")

Qualité des données en 6 dimensions: Évoluer les données et en assurer la qualité

Nous sommes exposés aux données tous les jours, par exemple dans les bulletins de nouvelles, les bulletins météorologiques et la publicité. Mais comment savons nous si ces données sont de bonne qualité? Dans cette vidéo, on vous présentera les aspect fondamentaux de la qualité des données qui peuvent se résumer en 6 dimensions ou en 6 façons distinctes de penser à la qualité. Vous apprendrez également comment chaque dimension peut être utilisé pour évaluer la qualité des données.

Objectifs d'apprentissage

À la fin de cette vidéo, vous en saurez davantage sur le concept de qualité de base, la qualité des données exprimées en 6 dimensions et les interactions entre celles-ci. Cette vidéo s'adresse aux personnes qui souhaitent acquérir une compréhension de base de la qualité des données. Aucune connaissance préalable n'est requise.

Étapes du cheminement des données

(Text à l'écran: Étapes du cheminemnt des données est appuyé par une base d'intendance, de métadonnées, de normes et de qualité)

(Diagramme du Cheminement des données: Étape 1 - définir, trouver, recueillir; Étape 2 - explorer, nettoyer, décrire; Étape 3 - analyser, modéliser; Étape 4 - Raconter l'histoire. Le cheminement des données est supporté par une base d'intendance, de métadonnées, de normes et qualité.)

Ce diagramme est une représentation visuelle du cheminement des données, de la collecte des données à l'exploration  au nettoyage, à la description et à la compréhension des données, à l'analyse des données et enfin à la communication avec les autres de l'histoire que racontent les données. Vous remarquerez que la qualité des données n'est pas comprise dans une étape précise du processus. C'est plutôt un élément qui est important tout au long du cheminement des données.

Qualité

(Diagramme des six dimensions des données: Pertinence, Exactitude, Actualité, Intelligibilité, Cohérence, Accessibilité)

Les 6 dimensions de la qualité des données. La pertinence, l'exactitude, l'actualité l'intelligibilité, la cohérence, l'accessibilité. Chaque dimension sera examinée séparément dans les prochaines diapositives.

Pertinence

La pertinence des données ou des renseignements statistiques représentent la mesure dans laquelle ils répondent aux besoins des utilisateurs de données et des intervenants. Pour vérifier la pertinence d'un produit de données, vous devriez vous demander si cette information est importante? A Statistique Canada, il nous incombe de fournir aux canadiens et canadiennes des renseignements qui comptent. Autrement dit, les renseignements sont-ils utiles pour élaborer des politiques? Facilitent-ils la planification à long terme? Comblent-il une lacune statistique? Permettent-ils de promouvoir de nouvelles initiatives qui profiteraient à la population canadienne? Est-il à améliorer les services? Quelle question poseriez vous pour vérifier la pertinence de vos données?

Exactitude

Des données exactes reflètent fidèlement la réalité.

Demandez-vous si ce qui est mesuré correspond vraiment à la vérité.

Actualité

L'actualité désigne l'intervalle entre le moment où les données sont utiles et celui où elles sont disponibles. Par exemple, les administrations responsables des autobus scolaires ont besoin de prévisions météorologiques à jour très tôt le matin pour prendre de bonnes décisions quant à l'annulation des autobus scolaires. De même, les parents doivent être au courant des annulations d'autobus scolaire avant de se rendre au travail. L'actualité est étroitement liée à l'exactitude et à la pertinence.

Intelligibilité

Les renseignements que les gens ne peuvent pas comprendre, ou qui peuvent facilement mal interprété, n'ont aucune valeur et pourrait même induire en erreur. Pour éviter de tels malentendus, des renseignements ou des documents supplémentaires, appeler métadonnées, doivent toujours accompagner n'importe quel ensemble de données, car il permet aux utilisateurs de interpréter les données correctement.

Cohérence

La cohérence peut être divisée en deux concepts, la correspondance et la similarité. La correspondance signifie l'utilisation des mêmes concepts, définitions et méthodes au fil du temps. La similarité signifie l'utilisation dans différents programmes statistiques de concept de définitions et de méthodes identiques ou semblables. S'il y a une bonne correspondance et une bonne similarité, il est plus facile de comparer les résultats de différentes études. Ou d'en faire le suivi? En ce qui concerne la qualité des données, la cohérence et la capacité à établir des comparaisons entre les villes, les régions, les périodes, et cetera.

Accessibilité

La dernière dimension de la qualité est l'accessibilité, ce qui signifie que les gens connaissent l'existence des données et y ont accès. Lorsque vous vérifiez si les données sont accessibles, assurez vous qu'elles sont organisées. Un système ou un catalogue permet aux utilisateurs de trouver toutes les données disponibles. Disponible une fois que l'emplacement d'une source de données, a été déterminé, un moyen uniforme d'accéder à ses données doit également être fournies.

Imputable, un producteur de données est tenu d'aider les utilisateurs qui éprouvent des difficultés ou de l'insatisfaction à l'égard de tout aspect de l'accès aux données. Abordable, à quoi servent les données les plus fiables si, vous n'avez pas les moyens de les utiliser?

Application des dimensions de la qualité

Imaginez que vous êtes propriétaire d'une pizzeria et que vous envisagez d'agrandir votre entreprise en ouvrant un 2e commerce dans la région de Toronto. Quels genres de données pourraient vous aider à prendre votre décision et où pourriez-vous les trouver?

(Text à l'écran: Les types de question pour fonder un restaurant à Toronto. 1) Quels genres de données pourraient voud aider à prednre votre décision? Où pourriez-vous trouver ces renseignements à un coût relativement faible? Comment pourriez-vous vérifier l'exactitude, l'actualité, l'intelligibilité et la cohérence des données?

Pertinence des données

Pour ouvrir un 2e commerce à Toronto, il vous faudrait consulter des renseignements sociaux et économiques sur la ville, notamment ceux portant sur les profils de quartiers, le développement commercial et l'aide à la localisation. L'emploi et les habitudes de dépenses des ménages, les subventions, les incitatifs et les remises. Les festivals, les événements, les parcs et les plages, les plans de développement municipaux.

Accessibilité des données

Le fait de pouvoir accéder à des données fiables vous permettra de prendre une décision éclairée au sujet de l'ouverture d'un 2e commerce et d'évaluer sa croissance potentielle au fil du temps. Dans l'idéal, ces données sont bien organisées, elles sont facilement accessibles. Elles sont gratuites, ou peu coûteuses et elles proviennent de sources fiables, comme le site de données ouvertes du gouvernement fédéral. Le site du ministère des Finances de l'Ontario. Le portail de données ouvertes de la ville de Toronto. Qu'est-ce qui rend ces sites si accessible?

Il possède de nombreuses caractéristiques. Ils sont souvent ouverts défaut. Ils sont à base de menu. Ils ont des galeries d'applications. Ils ont des licences du gouvernement ouvert. Ils ont des répertoires de données ouvertes. Ils ont une interface de programmation d'applications. Ils offrent leurs contenus dans les deux langues officielles. Cette dernière caractéristique concerne seulement les sites fédéraux et provinciaux.

(Texte à l'écran: accès au site mentionner dernièrement sont: le site de données ouvertes du gouvernement fédéral: https://open.canada.ca/fr/; le site du ministère des Finances de l'Ontario: https://www.fin.gov.ca/; le portail de données ouvertes de la ville de Toronto (en anglais seulement): https://www.toronto.ca/

Exactitude des données

Grâce à des données exactes, vous serez en mesure de faire des calculs précis pour prévoir les coûts, les revenus et le succès possible d'un nouveau restaurant. Le succès de votre nouveau restaurant dépendra de l'exactitude de vos projections financières, qui auront été bien planifié et établi à partir d'études crédibles et de données de qualité.

Actualité des données

(Tableau de données titulé: Population historique et projetée de l'Ontario par division de recensement, certaines années - scénario de référence)

Les données ont tendance à avoir une plus grande valeur lorsqu'elles sont diffusées de façon cohérentes à un moment propice ou utile. La diffusion des données sur la population projetée selon la région donne aux restaurateurs une idée des endroits susceptibles d'afficher une croissance démographique.

Intelligibilité des données

Les sites de données ouvertes facilitent l'interprétation des données en les rendant intelligible de plusieurs façons. Ils mettent en place un format normalisé ou une interface conviviale. Ils offrent aux utilisateurs une façon cohérente d'accéder aux données, de les consulter et de les interpréter. Ils intègrent une variété de données dans un seul outil de visualisation afin de les rendre faciles à interpréter. Ils facilitent l'accès à la documentation et aux données supplémentaires pour fournir aux utilisateurs le contexte lié aux ensembles de données. Les notes, les renvois et les sources figurent à même les tableaux. Les sites utilisent des outils de visualisation des données comme des tableaux, des infographies ou des graphiques, ce qui facilitent l'interprétation des données.

Cohérence des données

(Image des faits saillants socio-économiques du recenssement 2016 au centre Scarborough (Quartier de Toronto numéro 21)

Les mesures comparatives des taux d'emploi et des niveaux de revenus et de scolarité sont d'importants indicateurs de la situation économique et du succès possible d'un nouveau restaurant. Le portail de données ouvertes de la ville de Toronto présente des affichages prédéfinis qui intègrent une analyse de cohérence. Chaque affichage permet aux utilisateurs de comparer les données d'un quartier avec celle de l'ensemble de la ville et des autres quartiers, et ce, au moyen d'un seul outil de visualisation.

Résumé des principaux points

Les données peuvent être un outil décisionnel très puissant. Cependant, lorsqu'elles sont mal utilisées, elles peuvent s'avérer trompeuses. En appliquant les 6 dimensions de la qualité, vous pourrez choisir une source de données de haute qualité qui répondra à vos besoins.

Il est possible d'atteindre un niveau de qualité acceptable en assurant un bon équilibre entre les 6 dimensions, à savoir la pertinence, l'exactitude, l'actualité, le intelligibilité, la cohérence et l'accessibilité.

(Le mot-symbole « Canada » s'affiche.)

Qu'avez-vous pensé?

S'il vous plaît nous donner vos commentaires afin que nous puissions mieux fournir des produits qui répondent aux besoins de nos utilisateurs.

Le Plan d'action sur les données désagrégées (PADD) est une approche pangouvernementale encadrée par Statistique Canada visant à appuyer les efforts gouvernementaux et sociétaux pour lutter contre les inégalités connues et promouvoir la prise de décisions équitables et inclusives.

Le PADD appuie les efforts soutenus de Statistique Canada visant à relever et à combler les lacunes en matière de données et de connaissances dans l'ensemble de ses programmes. Ces efforts permettent de recueillir des données plus représentatives et des statistiques améliorées sur diverses populations, grâce à la collecte, à l'analyse et à la diffusion de plus de données désagrégées que jamais auparavant. Les données désagrégées sont des données qui ont été ventilées en catégories (p. ex. genre, âge, revenu, région géographique) pour mieux comprendre les expériences que vivent les divers groupes de population et potentiellement dégager des renseignements pertinents entre les différents groupes, et au sein de chacun, qui auraient pu passer inaperçus autrement.

En 2022-2023, Statistique Canada a poursuivi sur la lancée de ses réalisations liées aux données désagrégées de l'année précédente en utilisant des plans de sondage et des méthodes d'échantillonnage novateurs, ce qui s'est traduit par un plus grand nombre d'analyses intersectionnelles et de renseignements sur les divers groupes de population. Par exemple, les études menées au cours de cette période ont porté sur les tendances en matière d'écarts salariaux, les expériences en matière de logement de divers groupes de population, la surreprésentation des Autochtones détenus dans des établissements provinciaux, et les résultats scolaires et économiques des personnes lesbiennes, gaies et bisexuelles de divers contextes ethnoculturels. De plus, des travaux de recherche financés par le PADD ont permis d'explorer des méthodes novatrices afin d'améliorer l'échantillonnage pour assurer une meilleure représentation de divers groupes de population, et de coordonner l'échantillonnage entre les enquêtes afin de réduire le fardeau de réponse, surtout pour les petits groupes de population.

En prenant appui sur les travaux amorcés en 2021-2022, Statistique Canada poursuit la modernisation de ses programmes de collecte de données et de données administratives. Notamment, d'avril à décembre 2022, des données mensuelles ont été recueillies dans le cadre de suppléments à l'Enquête sur la population active (EPA), qui ont permis de dégager de précieux renseignements sur la qualité de l'emploi de divers groupes. Une fois le financement obtenu pour mener le projet, de nouvelles variables seront ajoutées à l'Enquête sur les tribunaux civils, qui permettront d'intégrer des données sur les tribunaux civils à d'autres bases de données administratives. Enfin, le fonds pour les données administratives du PADD, qui fournit du financement aux partenaires externes pour leur permettre d'améliorer leurs fonds de données administratives, a été créé.

Statistique Canada collabore régulièrement avec divers partenaires et intervenants pour répondre aux besoins croissants en information de la population canadienne. Parmi les réalisations à souligner, mentionnons les partenariats de Statistique Canada avec certaines villes pour améliorer le Registre des entreprises, ainsi que la détermination de stratégies pour combler les lacunes statistiques municipales.

Les sections suivantes soulignent les réalisations de projets clés financés dans le cadre du PADD en 2022-2023.

Accroissement des actifs de données désagrégées

Indicateurs sociaux, de la santé et du travail

Statistique Canada a lancé la première vague de la Série d'enquêtes sur les gens et leurs communautés (SEGC), qui a permis de recueillir suffisamment de données désagrégées pour examiner les expériences vécues par la population canadienne racisée et immigrante, y compris les nouveaux arrivants au Canada. Ce volet initial comprenait des questions sur le sport, l'engagement communautaire, la confiance à l'égard des institutions, l'engagement politique et la culture en milieu de travail. Le premier ensemble de résultats de la SEGC a été diffusé en mars 2023.

Statistique Canada a également mis au point un cadre pour combler les lacunes statistiques dans le domaine de l'économie des soins. Des questions à propos de la prestation de soins rémunérés et non rémunérés aux enfants ainsi qu'aux adultes dépendants de soins ont été ajoutées à la sixième vague de l'Enquête sociale canadienne. Un article a été diffusé en novembre 2022, et d'autres suivront. De plus, de nombreux tableaux de données fondés sur des données désagrégées de l'Enquête sociale générale ont été produits pour le Cadre de qualité de vie et le Cadre d'inclusion sociale.

Statistique Canada a continué de travailler à la production de projections et d'estimations démographiques pour des groupes de population particuliers et des niveaux géographiques plus précis. En septembre 2022, l'organisme a diffusé des projections démographiques sur l'immigration et la diversité au Canada jusqu'en 2041. Ces projections sont présentées dans un rapport et sont accessibles sous forme de tableaux et dans un tableau de bord interactif. Les estimations démographiques de 2022 pour les municipalités (limites des subdivisions de recensement de 2016) ont également été diffusées en janvier 2023.

Des consultations ont été menées et un exercice de faisabilité a été effectué au sujet de l'ajout de nouveau contenu à l'Enquête sur les tribunaux civils. De nouvelles variables seront ajoutées et comprendront des identificateurs personnels pour permettre l'intégration des données des tribunaux civils à d'autres bases de données de Statistique Canada. Cela rendra possible l'analyse de facteurs socioéconomiques, y compris des renseignements sur l'identité autochtone et racisée, et permettra de jeter un éclairage sur les expériences des membres de divers groupes de population devant les tribunaux civils canadiens. De plus, à la lumière des recommandations découlant de l'exercice de mobilisation consultative du public concernant la nouvelle Enquête sur les services correctionnels canadiens, Statistique Canada a mis au point de nouveaux indicateurs fondés sur la population et a publié une analyse de la surreprésentation des Autochtones détenus dans des établissements provinciaux.

Des données désagrégées de l'Enquête sur la santé dans les collectivités canadiennes (ESCC) ont servi à élaborer divers produits, y compris des indicateurs d'inclusion sociale pour les groupes ethnoculturels du Canada, des indicateurs de sécurité alimentaire et des données concernant l'accès à un fournisseur habituel de soins de santé. Les données de l'ESCC de 2015 à 2018 ont en outre permis la diffusion d'un tableau sur les caractéristiques socioéconomiques de la population lesbienne, gaie et bisexuelle. De plus, les données de la Cohorte santé et environnement du recensement canadien de 2016 ont été intégrées à des données administratives, qui ont ensuite été utilisées pour calculer la mortalité attribuable à la COVID-19 au sein des populations racisées au Canada et son lien avec le revenu.

D'autres améliorations ont été apportées à l'EPA en 2022-2023, y compris l'ajout d'indicateurs sur la qualité de l'emploi pour divers groupes de population au Canada. Plus précisément, des données ont été recueillies à propos des défis relatifs à la garde des enfants et à la carrière que les parents doivent relever, des difficultés financières avec lesquelles les ménages sont aux prises dans le contexte d'une inflation élevée et du nombre de personnes au Canada qui travaillent sur des plateformes numériques. De plus, le supplément de l'EPA intitulé Indicateurs socioéconomiques et du marché du travail a été mis en œuvre pour recueillir des données sur le travail, les paiements de soutien et les besoins insatisfaits en matière de soins de santé, et pour surveiller le bien-être économique des personnes et des familles. Les données de ce supplément ont été intégrées à celles de l'Enquête canadienne sur le revenu pour fournir 12 mois de données de l'EPA sur les personnes en situation d'incapacité. Ces données désagrégées seront diffusées annuellement. Cette amélioration de la couverture a rendu possible la réalisation d'une analyse détaillée des caractéristiques de l'activité sur le marché du travail des personnes ayant une incapacité et sans incapacité en 2022.

Données sur la situation des entreprises

L'Enquête canadienne sur la situation des entreprises joue un rôle essentiel pour aider les administrations publiques à comprendre les principaux enjeux économiques auxquels sont confrontées les entreprises au Canada. Des données détaillées sont diffusées pour l'ensemble des provinces et des territoires ainsi que pour les 20 plus grandes régions métropolitaines de recensement, par centre de population et région rurale, taille de l'entreprise et secteur. Des tableaux de données sur les pourcentages moyens de femmes et d'hommes occupant des postes de cadres ont été diffusés pour le premier trimestre de 2023. Des tableaux de données sur le nombre d'entreprises du secteur privé désagrégées selon le nombre de propriétaires majoritaires ont également été diffusés pour le deuxième trimestre de 2022, le troisième trimestre de 2022, le quatrième trimestre de 2022 et le premier trimestre de 2023. Tous les autres tableaux de données diffusés ont été croisés avec des variables de propriété majoritaire, y compris la propriété majoritaire par des femmes, des Autochtones, des immigrants au Canada, des personnes 2ELGBTQ+ et des membres de groupes racisés.

Intégration des données et données administratives

En ce qui concerne l'intégration des données, deux projets étaient axés sur la recherche relative aux activités de brevetage, et visaient à combler d'importantes lacunes en matière de données et de connaissances sur le brevetage selon le genre, à l'échelle des entreprises et des personnes. La Base de données de recherche sur les brevets canadiens est maintenant comprise dans l'Environnement de fichiers couplables, rendant possible l'intégration des microdonnées de Statistique Canada sur les entreprises dans différentes sources administratives et d'enquête. De plus, les bases de données relatives à la propriété des entreprises et aux programmes gouvernementaux de soutien aux entreprises liés à la pandémie de COVID-19 ont été intégrées, mises à jour et rendues accessibles à une plus vaste communauté de recherche. Cela a stimulé la recherche sur l'incidence de la pandémie sur les entreprises appartenant à des groupes sous-représentés et sur la façon dont ces entreprises ont été soutenues par les programmes gouvernementaux. L'intégration de telles bases de données a mené à l'élaboration d'un document de recherche, qui sera publié prochainement, à propos de l'incidence de la pandémie de COVID-19 sur les groupes sous-représentés, y compris les femmes et les immigrants.

Enfin, l'exercice 2022-2023 a été marqué par la mise sur pied du fonds pour les données administratives du PADD, qui donne aux partenaires externes l'occasion d'améliorer leurs propres fonds de données administratives désagrégées. En 2022-2023, l'équipe du fonds pour les données administratives a lancé un appel de propositions à l'échelle de l'organisme et a reçu de nombreuses demandes de financement. Toutes les propositions ont été examinées, et cinq initiatives couvrant les domaines social et économique ont été recommandées aux fins de financement. Ces propositions seront financées tout au long de 2023-2024, en fonction du budget.

Perspectives analytiques enrichies

Statistique Canada continue de fournir des renseignements statistiques détaillés sur les expériences et les résultats économiques, sociaux et de santé de divers groupes au Canada. Dans l'ensemble, 45 % des produits analytiques diffusés par Statistique Canada au cours de l'exercice 2022-2023 comprenaient des données désagrégées pour au moins un des quatre groupes visés par l'équité en matière d'emploi (c.-à-d. les Autochtones, les femmes, les membres des populations racisées et les personnes en situation d'incapacité).

En ce qui concerne les résultats interreliés en matière de santé et de situation socioéconomique de la population canadienne, un projet de recherche a porté sur la façon dont les améliorations historiques de l'espérance de vie et de l'état de santé influent sur les résultats économiques, comme les revenus et l'emploi, pour divers groupes au Canada. Un article sur les résultats scolaires et économiques des personnes lesbiennes, gaies et bisexuelles de diverses origines ethnoculturelles a également été diffusé. Dans le cadre d'un autre projet, on s'est intéressé au lien entre la cybervictimisation et la santé mentale chez les jeunes canadiens, y compris les jeunes transgenres et non binaires, les jeunes autochtones et les personnes atteintes de problèmes de santé chroniques. Un article portant sur les variations du risque moins élevé de comportements suicidaires chez les immigrants a également été diffusé. En collaboration avec nos partenaires responsables de l'élaboration des politiques, ces projets ont mené à la production de renseignements statistiques détaillés visant à mettre en évidence les expériences de divers groupes de Canadiennes et Canadiens, à faire la lumière sur les inégalités et à promouvoir l'inclusion dans la prise de décisions.

Deux autres projets étaient axés sur l'évolution démographique des groupes racisés au Canada et la variation de la pauvreté chez les groupes racisés. Un document d'introduction et une série de feuillets d'information sur le logement fournissent des renseignements opportuns sur les expériences en matière de logement de divers groupes de population au Canada.

En ce qui concerne la main-d'œuvre, les données désagrégées et l'analyse de l'Enquête sur la population active (EPA) ont été mises en évidence dans les communiqués mensuels et d'autres diffusions tout au long de l'année. La diffusion de l'EPA d'octobre 2022 comprenait des estimations de la proportion de la population canadienne vivant dans des ménages éprouvant des difficultés financières, et de nouveaux renseignements sur le travail autonome au sein des groupes racisés ont été inclus dans la diffusion de juillet 2022.

En mai 2022, Statistique Canada a diffusé le premier numéro de la publication Qualité de l'emploi au Canada, laquelle propose aux lecteurs des données et des analyses portant sur des indicateurs clés de la qualité de l'emploi, fondées sur un cadre statistique soutenu par la communauté internationale. Cette première diffusion comprenait une étude sur l'écart salarial qui portait sur les salaires horaires moyens des employés racisés et fournissait des renseignements à jour sur l'écart salarial entre les genres.

En ce qui a trait aux statistiques commerciales et économiques, une étude portait sur les activités de brevetage des entreprises appartenant à des femmes au Canada, comparant ces activités avec celles des entreprises appartenant à des hommes. Des analyses prospectives sur les entreprises appartenant à des femmes, aux membres de groupes racisés, aux immigrants et aux Autochtones, fondées sur les données de l'Enquête canadienne sur la situation des entreprises, ont également été diffusées. Notamment, des analyses ont été diffusées sur les entreprises appartenant majoritairement à des femmes (au deuxième trimestre de 2022 et au premier trimestre de 2023), les entreprises appartenant majoritairement à des immigrants et les entreprises appartenant majoritairement à des immigrants au Canada et des entreprises appartenant majoritairement à des personnes racisées.

Pour mieux comprendre la participation des Autochtones à l'économie canadienne, Statistique Canada est en train de mettre au point le Compte économique des peuples autochtones (CEPA). Les résultats d'une étude de faisabilité accompagnés d'estimations provisoires ont été diffusés en août 2022. La première diffusion du CEPA comportait trois éléments, soit une série d'indicateurs économiques, un module des ressources humaines fournissant des estimations liées aux emplois rémunérés selon diverses caractéristiques sociodémographiques, et une analyse supplémentaire montrant la façon dont les estimations du produit intérieur brut, la production et le nombre total d'emplois peuvent être ventilés par lieu de résidence et groupe d'identité autochtone.

Accès amélioré aux données désagrégées

Le programme de données sur les municipalités de Statistique Canada a lancé le Centre de données municipales et locales. Cette initiative fournit aux utilisateurs municipaux une plateforme centralisée leur permettant d’accéder aux données au niveau géographique le plus pertinent pour leur municipalité. Les associations municipales, la Fédération canadienne des municipalités et les bureaux de Statistique Canada qui travaillent avec les municipalités ont tous fait la promotion du Centre. 

De plus, le Tableau de bord des données financières et socioéconomiques municipales a été mis à jour pour y inclure 35 villes, y compris deux régions de l'Ontario, ce qui a permis d'établir le cadre de répartition des finances et des services régionaux.

Le Carrefour des statistiques sur le genre, la diversité et l'inclusion continue de réunir sur une plateforme centralisée des tableaux de données, des analyses et des annonces concernant divers groupes de population, facilitant ainsi l'accès aux données et aux analyses désagrégées. De nouveaux produits statistiques sont annoncés au moyen de campagnes dans les médias sociaux, mis en évidence sur le Carrefour et communiqués par courriel aux principaux partenaires et intervenants. Des consultations ont eu lieu avec des organismes non fédéraux et le milieu universitaire, afin de recueillir des commentaires sur la convivialité du Carrefour; les résultats de ces consultations sont pris en considération pour apporter des améliorations futures.

Statistique Canada continue de tirer parti des solutions d'accès aux données existantes, comme les fichiers de microdonnées à grande diffusion et l'accès à distance en temps réel, afin d'améliorer l'accès aux données désagrégées et leur diffusion auprès de la population canadienne.

Méthodes et normes statistiques solides

Une méthodologie robuste et des normes bien définies sont essentielles à la production de données de grande qualité et de statistiques fiables. Pour améliorer la représentation statistique de divers groupes de population dans les enquêtes, Statistique Canada a diversifié ses stratégies d'échantillonnage, notamment en utilisant de multiples bases de sondage et en optimisant la répartition de l'échantillon entre les diverses sous-populations d'intérêt, tout en assurant la coordination des échantillons recueillis afin de réduire le chevauchement et le fardeau supplémentaire imposé aux répondants. L'organisme met également à l'essai des méthodes d'échantillonnage non probabilistes pour les populations difficiles à atteindre. Un guide méthodologique a été préparé pour résumer toutes les approches d'échantillonnage pertinentes dans le contexte du PADD. De plus, des méthodes liées à la désagrégation ont été présentées et débattues par des statisticiens du monde entier lors du Symposium international de 2022 sur les questions de méthodologie de Statistique Canada, « Désagrégation des données : dresser un portrait de données plus représentatif de la société ».

Pour traiter le problème de la non-réponse partielle dans les enquêtes et faciliter la désagrégation future, Statistique Canada a exploré des stratégies d'imputation à l'aide de la modélisation des données et de techniques d'apprentissage automatique. Par exemple, l'efficacité des modèles d'apprentissage automatique a été évaluée pour traiter de la non-réponse partielle selon des variables démographiques comme le sexe, le genre, l'identité autochtone et le groupe racisé dans l'Enquête sur les services correctionnels canadiens. Bien qu'on ait conclu qu'un peaufinage des modèles était requis avant de pouvoir adopter l'apprentissage automatique à cette fin, l'exercice a permis de répondre à plusieurs questions concernant l'utilisation de cette technique. Cette enquête annuelle comprend des variables sur l'identité autochtone, le statut de personne racisée et d'autres renseignements autodéclarés. Pour certaines personnes, des renseignements manquent, ce qui entraîne un sous-dénombrement de certains groupes dans les établissements correctionnels.

Pour résoudre la mobilité de la réponse liée à l'identification des groupes du PADD, des techniques de modélisation ont été élaborées afin d'améliorer l'exactitude de l'identification dans des enquêtes comme la Série d'enquêtes sur les gens et leurs communautés. Les probabilités d'identification à divers groupes d'intérêt ont également été modélisées à l'étape de l'échantillonnage pour l'Enquête canadienne sur la situation des entreprises et l'Enquête sur le financement et la croissance des petites et moyennes entreprises, dans le cadre d'une étude sur les populations peu représentées ou sous-représentées parmi les propriétaires d'entreprises au Canada.

Statistique Canada a poursuivi l'élaboration de nouvelles normes statistiques. Une nouvelle page Web sur les normes, les sources de données et les méthodes, maintenant accessible au public, a été créée pour rendre l'utilisation des normes plus conviviale.

La publication du Manuel sur les formes d'emploi (en anglais seulement) par la Commission économique des Nations Unies pour l'Europe, en août 2022, témoigne du leadership dont fait preuve Statistique Canada au chapitre de l'élaboration de normes statistiques internationales relatives aux nouvelles formes d'emploi. Ce manuel fournit des conseils pour la mesure des formes d'emploi et décrit de nouveaux types de dispositions et de technologies qui peuvent placer les travailleurs de divers groupes dans des situations vulnérables. En décembre 2022, Statistique Canada a recueilli des données à propos de l'emploi sur les plateformes numériques au moyen d'un supplément à l'EPA, en prenant appui sur ces normes et recommandations internationales. Les résultats ont révélé qu'en 2022, plus de la moitié des travailleurs ayant fourni des services de covoiturage ou de livraison au moyen d'une application ou d'une plateforme numérique étaient des immigrants. Pour examiner les changements au fil du temps, Statistique Canada recueillera de nouveau ces données en décembre 2023.

En juin 2022, Statistique Canada a publié un document sur les données de référence en tant que service (DRS) afin de fournir un accès lisible par machine aux normes du PADD. Ces données comprennent les ensembles de codes, les classifications et les concordances utilisés à Statistique Canada pour harmoniser les données afin d'améliorer l'intégration et l'analyse des données à l'échelle interministérielle.

Mobilisation et collaboration continues

La mobilisation et les consultations des partenaires sont cruciales pour assurer la pertinence des programmes statistiques, des données et des normes statistiques de Statistique Canada.

Dans le cadre de l'examen du concept de minorité visible , Statistique Canada a mené des consultations afin de déterminer la terminologie et les catégories appropriées pour décrire la population et répondre adéquatement aux besoins en données dans les domaines de la santé, de l'éducation, de la justice et de l'équité en matière d'emploi. Les consultations ont commencé en octobre 2022 et ont été menées sous forme de discussions de groupe virtuelles et de séances d'information, ainsi que de formulaires électroniques et de soumissions écrites. Statistique Canada a reçu des soumissions de plus de 460 personnes provenant d'une variété d'organisations, y compris des groupes de lutte contre le racisme, des organisations de la société civile, des organisations communautaires ethnoculturelles, des réseaux religieux et des groupes d'inclusion sociale, ainsi que du grand public.

En 2022-2023, l'expansion du Programme de déclaration uniforme de la criminalité s'est poursuivie. Cette initiative permettra de veiller à ce que la collecte de données sur l'identité autochtone et racisée des auteurs présumés et des victimes d'actes criminels réponde aux besoins en données des collectivités, de la police, des décideurs et de la population canadienne en général. En septembre 2022, un rapport provisoire contenant des recommandations visant à orienter la voie à suivre a été diffusé, et une deuxième série de mobilisations axées sur la mise en œuvre des recommandations énoncées dans le rapport provisoire a commencé en août 2022. Le système a été mis à jour en fonction des recommandations reçues et devrait être prêt à recevoir des données des services de police en janvier 2024.

Grâce au financement provenant du PADD, en 2022-2023, le Programme de déclaration uniforme pour les appels de service a pu faire avancer un plan mis au point l'année précédente, en vue d'opérationnaliser un programme de déclaration à l'échelle nationale permettant de recueillir des fichiers de microdonnées sur les appels du public à la police pour obtenir de l'aide. Cette initiative vient combler d'importantes lacunes en matière de renseignements sur l'ensemble du travail policier, plus précisément en examinant les types d'événements non criminels dans lesquels la police intervient, ainsi que les diverses populations qui vivent dans les collectivités où ces appels ont lieu.

En ce qui concerne les données municipales, Statistique Canada a travaillé en étroite collaboration avec cinq villes pour créer un modèle de données administratives qui servira à télécharger des renseignements dans le Registre des entreprises. De plus, les données relatives à 35 villes ont été diffusées dans le Tableau de bord des données financières et socioéconomiques municipales. Ce projet est lié à une initiative plus vaste visant à encourager les municipalités et leurs secteurs de compétence à adopter des approches normalisées pour la collecte et le partage de statistiques gouvernementales avec Statistique Canada.

De plus, on a communiqué avec des membres de la Fédération canadienne des municipalités au cours de l'hiver 2023 pour savoir comment ils utilisaient les données de Statistique Canada, afin de déterminer les priorités clés en matière de données et de trouver d'autres façons de collaborer. Les résultats orienteront les futures améliorations des données de Statistique Canada à de plus petits niveaux géographiques, en collaboration avec la Fédération canadienne des municipalités et ses administrations provinciales et territoriales.

Pour atteindre l'objectif à long terme de Statistique Canada de mesurer efficacement la diversité des membres de conseils d'administration d'organismes à but non lucratif, Statistique Canada a tenu une série de consultations avec des représentants du secteur sans but lucratif. De plus, un comité consultatif externe composé de dirigeants d'administrations publiques ainsi que de représentants du milieu universitaire et du secteur sans but lucratif de partout au pays a été mis sur pied et servira de tribune pour mettre en commun l'expertise de chacun dans cet important secteur.

Au sein de Statistique Canada, des spécialistes du domaine ont mis sur pied de façon collaborative un atelier de formation exhaustif visant à renforcer les capacités d’analyse, dans le but d’analyser efficacement les données désagrégées et de produire des recherches et des renseignements utiles sur diverses populations au Canada.

Depuis des années, Statistique Canada fournit aux Canadiennes et aux Canadiens une vue d'ensemble sur de nombreux sujets qui touchent la population d'un bout à l'autre du pays. Cependant, cette vue d'ensemble peut masquer des différences profondes dans les expériences vécues par certains groupes de population.

La pandémie de COVID-19 a mis en évidence la façon dont un seul événement peut être vécu différemment par divers groupes, faisant ressortir des inégalités sociales et économiques qui existaient déjà. Pour que les plans et les programmes de relance postpandémiques puissent agir sur ces répercussions différentielles, il faut des données plus détaillées qui peuvent être désagrégées, ou ventilées, en catégories comme le genre, la race, l'âge et le niveau de revenu, ou selon une combinaison de celles-ci et d'autres encore. Il faut également des données désagrégées au niveau géographique le plus fin possible.

Au budget de 2021, Statistique Canada a reçu 172 millions de dollars sur cinq ans pour mettre en œuvre le Plan d'action sur les données désagrégées (PADD). Ce financement permettra de mettre au point des méthodes pour recueillir des données plus représentatives, d'améliorer les statistiques sur les populations issues de la diversité en vue de mener des analyses intersectionnelles et d'appuyer les efforts déployés par le gouvernement et au sein de la société pour éliminer les inégalités et intégrer les considérations relatives à l'équité et à l'inclusion dans les processus décisionnels.

Le PADD comprend la collecte de données, l'utilisation de données provenant de sources de rechange, l'application de méthodes, l'élaboration de normes, la mobilisation et la collaboration, ainsi que la diffusion de résultats qui mettent l'accent sur les quatre groupes visés par l'équité en matière d'emploi, soit les peuples autochtones, les femmes, les populations racisées et les personnes ayant une incapacité. Lorsqu'il sera pertinent et possible de le faire (selon le sujet traité et les considérations relatives à la confidentialité des données, à la protection des renseignements personnels et à la qualité), la désagrégation s'étendra à d'autres catégories (p. ex. l'orientation sexuelle, les enfants et les jeunes, les personnes âgées, la langue officielle, les immigrants, les personnes à faible revenu). Pour mieux comprendre les inégalités au sein des différents groupes de population, le PADD adopte l'approche de l'Analyse comparative entre les sexes Plus (ACS Plus) pour analyser de manière critique tous les facteurs identitaires qui s'entrecroisent.

Au cours de la première année de mise en œuvre du PADD, Statistique Canada a augmenté la taille de l'échantillon pour certaines enquêtes phares, dont l'Enquête sur la population active, l'Enquête sur la santé dans les collectivités canadiennes et l'Enquête sociale générale. L'augmentation de la taille de l'échantillon est également prévue pour d'autres enquêtes, comme l'Enquête sur l'accès aux soins de santé et aux produits pharmaceutiques pendant la pandémie, l'Enquête sur la santé mentale et l'accès aux soins, et l'Enquête sociale canadienne. Du contenu a également été ajouté à des enquêtes actuelles et nouvelles (p. ex. l'Enquête sociale canadienne, la Série d'enquêtes sur les gens et leurs communautés, l'Enquête canadienne sur la situation des entreprises, le Recensement de la population), et des données administratives ont été couplées et intégrées aux fonds de données actuels (Cohortes santé et environnement du recensement canadien) pour permettre une désagrégation plus poussée par groupe de population et par niveau géographique.

Des données désagrégées et des analyses pour certaines de ces enquêtes peuvent être consultées sur le Carrefour des statistiques sur le genre, la diversité et l'inclusion de Statistique Canada. Celui-ci sert de lieu central où trouver des données désagrégées, des analyses intersectionnelles et des renseignements sur divers groupes de population. Une infographie a été diffusée pour renseigner le public au sujet du PADD, de ses répercussions et des résultats attendus.

Statistique Canada tient des consultations auprès d'un large éventail de partenaires et collabore avec ces derniers pour veiller à ce que l'organisme traite des principaux enjeux sociaux et économiques et réponde aux besoins croissants de la population en matière de renseignements. Parmi les principales réalisations figurent les travaux effectués dans le cadre du Programme de déclaration uniforme de la criminalité, (Programme DUC) et du Programme de la statistique sociale générale, ainsi que l'élaboration et l'adoption de normes de données.

Les réalisations relatives à des projets clés qui ont été financés dans le cadre du PADD en 2021-2022 sont présentées ci-dessous.

Nouveaux actifs en données désagrégées

L'organisme acquiert de nouvelles données désagrégées et se dote de nouveaux actifs en données en ajoutant de nouvelles questions et de nouveaux éléments aux enquêtes et aux programmes de données administratives actuels, en créant de nouvelles enquêtes, et en élargissant la taille des échantillons afin de désagréger les données. Voici des exemples de réalisations dans divers domaines et programmes clés.

Enquête sur la population active

Deux améliorations majeures ont été apportées à l'Enquête sur la population active (EPA).

D'abord, en janvier 2022, une série d'enquêtes mensuelles supplémentaires associées à l'EPA a été lancée. Chaque mois, une courte série de questions supplémentaires est ajoutée à l'enquête pour compléter les données recueillies au moyen du questionnaire principal. Les sujets abordés comprennent les intentions des répondants de quitter leur emploi, leur volonté de déménager pour obtenir un emploi et l'équilibre entre le travail et les responsabilités familiales. Ces questions supplémentaires seront désagrégées afin de brosser un tableau des expériences de divers groupes sur le marché du travail.

Ensuite, en avril 2022, l'organisme a augmenté l'échantillon de l'EPA de 25 %, en mettant l'accent sur les plus grandes municipalités du Canada. Cette initiative a permis d'améliorer l'information sur la situation du marché du travail et d'accroître la capacité d'examiner les expériences de divers groupes sur le marché du travail, y compris les peuples autochtones et les groupes racisés. Pour la première fois, Statistique Canada a été en mesure de fournir aux décideurs des renseignements sur l'emploi concernant les membres des communautés racisées. Des tableaux de données présentant des estimations des caractéristiques de la population active par groupe de population racisé et par région ont été diffusés en septembre 2022.

Indicateurs de santé

À compter de septembre 2021, un échantillon supplémentaire de 50 000 unités a été ajouté à l'Enquête sur la santé dans les collectivités canadiennes afin de permettre une plus grande désagrégation des données. La première diffusion associée au nouvel échantillon fournit des renseignements analytiques sur la santé mentale autoévaluée parmi les populations racisées, immigrantes, autochtones et 2ELGBTQI+ au Canada pendant la pandémie.

Dans le contexte de la pandémie de COVID-19, l'organisme a été en mesure de recueillir des données plus détaillées sur la santé de la population canadienne et a diffusé des résultats détaillés sur leurs intentions de vaccination contre la COVID-19 et leur état de santé mentale.

La population autochtone a été suréchantillonnée dans le cadre de l'Enquête sur l'accès aux soins de santé et aux produits pharmaceutiques pendant la pandémie (EASSPPP). Selon les premiers résultats , parmi les adultes des Premières Nations (55 %), métis (53 %) et inuits (63 %) ayant besoin de services de soins de santé, plus de la moitié ont indiqué qu'ils avaient eu de la difficulté à y accéder au cours des 12 mois précédant l'enquête. Les résultats ont également montré que la difficulté à accéder à des services de soins de santé avait des effets plus néfastes sur les personnes ayant une incapacité ou un problème de santé chronique que sur les autres. En novembre 2022, une étude fondée sur les données de l'EASSPPP a été publiée dans Regards sur la société canadienne Elle portait sur l'assurance-médicaments, sur l'accès aux produits pharmaceutiques et sur l'utilisation de ceux-ci. Un communiqué du Quotidien ainsi qu'une infographie accompagnaient l'étude. Pour ce qui est de l'Enquête sur la santé mentale et l'accès aux soins (ESMAS), le plan d'échantillonnage comprend un suréchantillonnage de quatre groupes de population ciblés (Asiatiques du Sud, Chinois, Noirs et Philippins). La collecte a commencé en mars 2022.

Enfin, un nouveau tableau normalisé a été ajouté à la diffusion sur le nombre de décès annuel afin de désagréger les statistiques sur les causes de décès selon le niveau de revenu du quartier.

Enquête canadienne sur la situation des entreprises

Grâce aux données de l'Enquête canadienne sur la situation des entreprises (ECSE), des données détaillées et des analyses prospectives sont diffusées sur les entreprises appartenant à des femmes, à des groupes racisés, à des immigrants et à des Autochtones. D'avril 2021 à mars 2022, l'ECSE a joué un rôle essentiel en aidant les gouvernements à comprendre les principaux enjeux économiques auxquels les entreprises étaient confrontées. Des données détaillées sont diffusées pour l'ensemble des provinces et des territoires, ainsi que pour les 20 plus grandes régions métropolitaines de recensement.

Programme de la statistique sociale générale

Le Programme de la statistique sociale générale évalue les méthodes employées précédemment ainsi que des recommandations concernant l'augmentation de la taille de l'échantillon d'enquêtes et de certains groupes de population. L'augmentation de la taille de l'échantillon de l'l'Enquête sociale générale (ESG) – L'emploi du temps a permis une répartition entre régions urbaines et rurales et un accroissement de l'échantillon est prévu pour l'ESG – Famille et pour l'ESG – Dons, bénévolat et participation.

Du nouveau contenu d'enquête sur le bien-être, les valeurs partagées et la confiance a été préparé pour l'Enquête sociale canadienne (ESC), afin de produire un plus grand échantillon qui viendrait compléter les données de recensement sur l'origine ethnique.

De plus, des essais qualitatifs ont été effectués auprès de non-répondants de l'ESG – Identité sociale pour connaître les difficultés que certains participants ont rencontrées lors de l'enquête et trouver des façons de les résoudre pour leur donner des chances égales de participer aux enquêtes de Statistique Canada. Dans le cadre d'un financement provenant de la Stratégie de lutte contre le racisme du Canada, six groupes de population racisés ont été suréchantillonnés pour l'ESG – Identité sociale, ce qui a permis une plus grande désagrégation des données.

Données démographiques désagrégées

Le Centre de démographie de Statistique Canada a diffusé des projections démographiques jusqu'en 2041 pour les groupes suivants : l'ensemble de la population autochtone, les Premières Nations, les Métis, Inuit, et les Indiens inscrits ou des traités. Un rapport méthodologique complet et un article ont été publiés et montrent qu'en 2041, la population autochtone pourrait représenter de 5,4 % à 6,8 % de la population canadienne, comparativement à 5 % en 2016. Le Nunavut et les provinces de l'Atlantique devraient enregistrer les plus fortes augmentations, tandis que le Yukon et les Territoires du Nord-Ouest devraient connaître des baisses. Le Centre de démographie a également produit de nouvelles projections and estimations démographiques à des niveaux géographiques inférieurs, y compris les régions métropolitaines de recensement et les divisions de recensement.

Données du recensement

Statistique Canada a tenu le Recensement de 2021 pendant la pandémie. L'organisme s'est conformé à des normes de qualité élevées tout en assurant la collecte sécuritaire de données au moyen de nouveaux protocoles, y compris une méthode sans contact. Dans le cadre de la diffusion d'octobre 2022, des données ont été désagrégées par groupe de population pour rendre compte des différentes combinaisons de groupes de population racisés (p. ex. Noirs et Asiatiques du Sud). Aussi, pour la première fois depuis 1971, le Recensement de 2021 contenait des questions à propos de l'expérience militaire des Canadiennes et des Canadiens. Grâce aux données recueillies, Statistique Canada a pu fournir des renseignements sur la diversité au sein de la population militaire et des anciens combattants.

Renseignements analytiques

En 2021-2022, l'organisme a produit de plus grandes quantités de renseignements analytiques au moyen de présentations, de rapports de recherche et d'infographies afin de fournir aux décideurs, aux chercheurs et à la population canadienne des analyses approfondies et des statistiques détaillées. Dans l'ensemble, 46 % des produits analytiques diffusés par Statistique Canada au cours de l'exercice 2021-2022 comprenaient des données désagrégées pour au moins un des quatre groupes visés par l'équité en matière d'emploi (les peuples autochtones, les femmes, les personnes racisées et les personnes ayant une incapacité). D'autres analyses intersectionnelles et désagrégées seront diffusées au fur et à mesure que Statistique Canada progressera dans la mise en œuvre du PADD.

Accès et diffusion accrus

Le Carrefour des statistiques sur le genre, la diversité et l'inclusion (CSGDI), accessible à l'ensemble de la population canadienne, sert de principale plateforme pour la diffusion de produits et de renseignements liés au PADD. Le CSGDI reçoit du financement du PADD pour accroître sa fonctionnalité, augmenter le nombre d'outils de visualisation de données offerts, promouvoir des normes statistiques, élaborer des cadres conceptuels et des indicateurs pertinents pour divers groupes de population, et diffuser davantage de données désagrégées, de produits analytiques et de renseignements exploitables.

Statistique Canada travaille également à la mise sur pied du Centre de données municipales et locales, qui servira de plateforme principale pour les utilisateurs de données municipales à la recherche de données offertes à un niveau géographique plus pertinent pour les municipalités. À cet égard, Statistique Canada a élargi son programme de Statistiques de finances publiques canadiennes (SFPC) exploratoires pour les municipalités individuelles, de manière à couvrir couvrent plus de 35 municipalités et fournir des données financières désagrégées sur les municipalités et autres administrations publiques locales. Le Tableau de bord des données financières et socioéconomiques municipales intègre ces données aux indicateurs socioéconomiques et permet de faire des comparaisons à l'échelle des municipalités.

Au cours de la dernière année, Statistique Canada a continué de surveiller les progrès réalisés en lien avec le Cadre des résultats relatifs aux genres (CRRG) du gouvernement du Canada et a diffusé 29 tableaux d'indicateurs désagrégés par genre (et autres identités). Le PADD contribue à désagréger davantage le CRRG, dont les indicateurs servent à renseigner la population canadienne sur les progrès réalisés à l'égard de l'égalité des genres.

Normes statistiques

Au cours de la dernière année, Statistique Canada a examiné, élaboré et diffusé plus d'une centaine de normes dans divers domaines et a collaboré avec de nombreux partenaires (p. ex. l'Agence des services frontaliers du Canada, le Service correctionnel du Canada, Emploi et Développement social Canada, Immigration, Réfugiés et Citoyenneté Canada, l'Agence de la santé publique du Canada et Santé Canada) à l'élaboration de normes rigoureuses pour les données désagrégées. Ces normes concernant l'origine ethnique ou culturelle de la personne, le genre de la personne, l'identité autochtone de la personne, le sexe à la naissance de la personne et le statut de minorité visible de la personne. Parmi les principales normes ayant fait l'objet d'une révision au cours de l'exercice 2022-2023 figurent celles concernant les populations racisées, l'incapacité, la participation majoritaire dans une entreprise et l'orientation sexuelle.

Dans le cadre du Recensement de 2021, la précision « à la naissance » a été ajoutée à la question sur le sexe et une nouvelle question sur le genre a été ajoutée. Ces changements permettent à toutes les personnes vivant au Canada de s'auto-identifier dans le cadre du recensement. Le Canada est le premier pays à recueillir et à publier des données sur la diversité de genre dans le cadre d'un recensement national.

Méthodologie

L'organisme élabore une infrastructure méthodologique qui permettra le couplage et l'intégration d'un plus grand nombre de données administratives aux fonds de données existantes et la création d'ensembles de microdonnées riches qui peuvent être désagrégés selon les catégories prioritaires et au plus fin niveau géographique possible.

Par exemple, le Centre de données sur la santé de la population a élargi ses analyses d'intégration des données afin de fournir un plus grand nombre de profils sociodémographiques ventilés géographiquement pour les personnes touchées par la COVID-19. Pour ce faire, la Cohorte santé et environnement du recensement canadien de 2016 a été couplée avec les données mises à jour de la Base de données sur les congés des patients, du Système national d'information sur les soins ambulatoires, du Système d'information ontarien sur la santé mentale et de la Base canadienne de données de l'état civil – Décès. Cet ensemble de données a ensuite été utilisé pour calculer les taux de mortalité liés à la COVID-19 chez les populations racisées (p. ex. Asiatiques du Sud, Noirs et Chinois), désagrégés selon le genre et le statut de faible revenu. Les résultats sont traités dans deux articles parus en août 2022, l'un dans StatCan et la COVID-19 : des données aux connaissances, pour bâtir un Canada meilleur et l'autre dans Le Quotidien.

Mobilisation et collaboration

Le 15 juillet 2020, Statistique Canada et l'Association canadienne des chefs de police ont publié une déclaration commune dans laquelle ils annonçaient leur engagement à travailler, dans le cadre du Programme DUC, à la collecte de données sur l'identité autochtone et l'identité de personne racisée de toutes les victimes et de tous les auteurs présumés d'un acte criminel. Cette initiative, dirigée par le Centre canadien de la statistique juridique et de la sécurité des collectivités, répond aux demandes croissantes pour une meilleure compréhension des expériences des membres des Premières Nations, des Métis, des Inuits et des personnes issues de communautés racisées lorsqu'ils interagissent avec la police. Un processus de mobilisation s'est déroulé de l'été 2021 à l'hiver 2023 et visait à recueillir des commentaires auprès de diverses parties, notamment les organisations autochtones et de personnes racisées et les services de police. Les commentaires reçus ont servi à la préparation d'un rapport et d'une série de recommandations sur la meilleure façon de mettre en œuvre l'initiative.

Le Centre canadien de la statistique juridique et de la sécurité des collectivités a également mené des activités de mobilisation afin de mieux comprendre les expériences des groupes autochtones et racisés ainsi que leurs interactions avec les systèmes correctionnels et le système de justice pénale. Les résultats de ces activités de mobilisation contribuent à la stratégie globale visant à améliorer l'information sur ces enjeux.

Statistique Canada est en train de développer la littératie en matière de données désagrégées et la capacité analytique à l'intérieur et à l'extérieur de l'organisme. Le CSGDI est chargé de renforcer la capacité et la sensibilisation en matière d'ACS Plus au sein et à l'extérieur de l'organisme grâce à l'élaboration d'une formation sur l'ACS Plus destinée à tous les fonctionnaires fédéraux.