Libérer la puissance du couplage de données

Numéro de catalogue : 892000062024003

Date de diffusion : le 25 novembre 2024

Cette vidéo est destinée aux professionnels, aux décideurs politiques et aux chercheurs qui s'intéressent à la manière dont le couplage de données peut être utilisé pour obtenir des informations plus approfondies sur diverses questions. Elle montre comment la combinaison de données provenant de différentes sources peut aider à combler les lacunes en matière d'information, conduisant à des politiques mieux informées et à de meilleurs résultats.

Étape du parcours des données
Explorer, nettoyer, décrire
Compétence des données
  • Collecte des données
  • Exploration des données
Audience
Intermédiaire
Conditions préalables suggérées
s.o.
Durée
4:56
Coût
Gratuit

Voir la vidéo

Libérer la puissance du couplage de données - Transcription

À l'écran : "Libérer la puissance du couplage de données"

Voici Camille. Camille fait partie d'une équipe chargée de conseiller le ministère de la Santé sur les questions de santé publique émergentes.

Récemment, son équipe a tenté de comprendre comment les facteurs sociodémographiques, comme l'âge, le genre et l'éducation,

À l'écran : "Les facteurs sociodémographiques, l'âge, le genre et l'éducation"

de même que les habitudes liées à la santé, comme le sommeil ou l'activité physique, sont associés à l'hospitalisation des patients atteints de diabète.

À l'écran : "Les facteurs sociodémographiques, le sommeil ou l'activité physique"

Après quelques recherches initiales, l'équipe s'est rendu compte que les dossiers d'hospitalisation ne permettaient pas à eux seuls de mener une enquête approfondie sur cette question, car ils ne contiennent pas de détails sur les antécédents ou les comportements du patient.

À l'écran : "À eux seuls, les dossiers hospitaliers manquent de détails cruciaux sur le contexte et les comportements des patients."

Si seulement Camille pouvait compléter les renseignements manquants des dossiers d'hospitalisation par des données sociodémographiques et comportementales provenant d'autres sources et les relier entre elles. Bonne nouvelle, Camille peut le faire!

Le couplage de données est un outil puissant qui combine des renseignements provenant de différentes sources pour créer un ensemble de données plus complet. Ce processus augmente la valeur des données, ce qui permet d'obtenir de meilleurs renseignements, d'améliorer les services et de rendre l'élaboration des politiques plus efficace.

À l'écran : "Meilleurs renseignements, d'améliorer les services et de rendre l'élaboration des politiques plus efficace"

Quelle est l'importance du couplage de données?

Amélioration des soins aux patients : Dans ce cas, en reliant diverses sources de données sur la santé, Camille est en mesure d'obtenir des renseignements plus approfondis sur les soins aux patients, les résultats des traitements et les déterminants de la santé.

Amélioration de la santé publique : Le couplage de ces données permettra de cerner les tendances actuelles en matière de santé et d'élaborer des stratégies pour y remédier.

Élaboration efficace des politiques : La combinaison des sources de données permet d'obtenir une vue d'ensemble et de prendre des décisions plus éclairées.

À l'écran : "Quelle est l'importance du couplage de données? Amélioration des soins aux patients, Amélioration de la santé publique et Élaboration efficace des politiques."

Camille doit d'abord cerner les sources de données potentielles à coupler. Après une réunion avec Statistique Canada, elle détermine deux ensembles de données utiles pour son objectif :

À l'écran : "Camille identifie deux ensembles de données utiles après avoir visité Statistique Canada."

Statistique Canada :
'Enquête sur la santé dans les collectivités canadiennes (ESCC) recueille des données sur les problèmes de santé chroniques diagnostiqués, notamment le diabète, les caractéristiques sociodémographiques et les comportements influant sur la santé, tels que le tabagisme et l'exercice physique.

À l'écran : "L'Enquête sur la santé dans les collectivités canadiennes (ESCC), Diabète, Caractéristiques socio-démographiques, Comportements liés à la santé"

Institut canadien d'information sur la santé :
La Base de données sur les congés des patients (BDCP) contient des données sur tous les séjours des patients hospitalisés au Canada (à l'exception du Québec).

À l'écran : "La Base de données sur les congés des patients (BDCP) contient des données sur tous les séjours des patients hospitalisés au Canada (à l'exception du Québec)."

En utilisant les données de l'ESCC et de la BDCP, Camille peut étudier la probabilité que des patients ayant des profils différents soient hospitalisés en raison de leur diabète.

À l'écran : "ESCC, BDCP et Nouvelles sources de données."

C'est donc avec l'aide de ses partenaires de Statistique Canada que le processus de couplage de ces deux sources de données est lancé. Elle disposera maintenant d'un ensemble de données lui permettant de déterminer si les facteurs sociodémographiques et les habitudes liées à la santé sont associés aux hospitalisations des patients atteints de diabète.

Après avoir analysé les données, Camille et son équipe découvrent que certains groupes sont plus exposés aux hospitalisations liées au diabète,

À l'écran : "Certains groupes sont plus exposés aux hospitalisations."

notamment les patients ayant un faible niveau d'éducation et d'activité physique.

À l'écran : "Notamment les patients ayant un faible niveau d'éducation et d'activité physique."

Et maintenant, les petits caractères… Il est important de se rappeler que, si le couplage de données peut être extrêmement utile, il peut aussi soulever des inquiétudes quant à la protection de la vie privée.

À l'écran : "Les petits caractères."

À l'écran : "!"

Pour répondre à ces préoccupations, Statistique Canada a mis en place des protocoles stricts pour protéger la vie privée de la population canadienne.

À l'écran : "Un cadenas étant verrouillé."

Par exemple, tout couplage d'enregistrements impliquant des renseignements personnels doit prouver que les avantages pour le public l'emportent sur les risques potentiels.

À l'écran : "les avantages pour le public l'emportent sur les risques potentiels."

Pour ce faire, des procédures détaillées de protection de la vie privée doivent être définies. Pour en savoir plus sur ces procédures, consultez la Directive sur le couplage de microdonnées (statcan.gc.ca).

À l'écran : "Directive sur la liaison de microdonnées sur StatCan.gc.ca."

En outre, une Vérification de la nature délicate des données par la haute direction peut être nécessaire si le couplage d'enregistrements implique l'acquisition de données qui ne sont pas recueillies par Statistique Canada. Cette vérification de la nature délicate des données garantit que les données seront utilisées de manière responsable.

À l'écran : "Pour assurer une utilisation responsable, une vérification de sensibilité par un cadre supérieur peut être requise pour lier des données qui ne sont pas recueillies par Statistique Canada."

Enfin, tous les couplages de microdonnées approuvés doivent être communiqués au Parlement et publiés sur le site Web de Statistique Canada. Tout membre du public peut les consulter en cherchant « Couplage de microdonnées approuvés » à l'adresse www.statcan.gc.ca.

À l'écran : "Enfin, tous les couplages de microdonnées approuvés doivent être communiqués au Parlement et publiés sur le site Web de Statistique Canada."

À l'écran :  "Couplage de microdonnées approuvés"

Grâce au couplage de données, Camille est maintenant en mesure d'informer le ministère de la Santé que certains groupes sont plus exposés au risque d'hospitalisation pour diabète. Cette approche holistique lui permet de fournir une vision plus complète de ce problème de soins de santé et de contribuer à l'amélioration des politiques de santé publique.

À l'écran : "Cette approche holistique contribue à l'amélioration des politiques sur la santé publique."

Vous souhaitez en savoir plus sur le couplage de données? Visitez le site www.statcan.gc.ca et recherchez « Couplage de données » pour découvrir comment vous pouvez collaborer avec des experts de Statistique Canada afin d'atteindre le plein potentiel du couplage de données.

À l'écran : "Vous souhaitez en savoir plus? www.statcan.gc.ca."

À l'écran : "Couplage de données."

Qu'avez-vous pensé?

S'il vous plaît nous donner vos commentaires afin que nous puissions mieux fournir des produits qui répondent aux besoins de nos utilisateurs.

Analyse 101 : Comment interpréter un tableau de données

Numéro de catalogue : 892000062023002

Date de diffusion : le 24 octobre 2023

Dans cette vidéo, nous vous présenterons les notions de base à propos de ce qui suit : Pourquoi les tableaux de données sont-ils importants? Comment les tableaux de données sont-ils structurés? Comment interpréter les indicateurs de la qualité des données dans un tableau?

Étape du parcours des données
Analyser, modéliser
Compétence des données
Analyse des données, Interprétation des données
Audience
Essentiel
Conditions préalables suggérées
s.o.
Durée
8:22
Coût
Gratuit

Voir la vidéo

Analyse 101 : Comment interpréter un tableau de données - Transcription

(Le symbole et le mot-symbole de Statistique Canada apparaissent sur l'écran : « Statistique 101 : Intervalles de confiance ».)

Analyse 101 : Comment interpréter un tableau de données

Bienvenue à notre vidéo sur comment interpréter un tableau de données. Si vous voulez apprendre à lire des tableaux de données rapidement et efficacement, vous êtes au bon endroit.

Objectifs d'apprentissage

(Texte à l'écran : Aucun apprentissage préalable n'est requis pour bien comprendre cette vidéo.)

Dans cette vidéo, nous vous présenterons les notions de base à propos de ce qui suit : Pourquoi les tableaux de données sont-ils importants? Comment les tableaux de données sont-ils structurés? Comment interpréter les indicateurs de la qualité des données dans un tableau?

Cette vidéo s'adresse aux personnes qui débute leur propre parcours visant à améliorer leur niveau actuel de littératie et données. Aucun apprentissage préalable n'est requis pour bien comprendre cette vidéo.

Étapes du cheminement des données

(Diagramme du Cheminement des données : Étape 1 - définir, trouver, recueillir ; Étape 2 - explorer, nettoyer, décrire ; Étape 3 - analyser, modéliser ; Étape 4 - raconter l'histoire. Le cheminement des données est appuyé par une base d'intendance, de métadonnées, de normes et de qualité.)

Ce diagramme est une représentation visuelle du cheminement des données. De la collecte des données à l'exploration, au nettoyage, à la description et à la compréhension des données, jusqu'à l'analyse des données et pour terminer, la communication aux autres de l'histoire que les données racontent.

Étapes du cheminement des données

(Diagramme du Cheminement des données avec une attention sur l'Étape 3 - Analyser, Modéliser.)

Savoir comment interpréter les données d'un tableau avec exactitude et les transformer en renseignements utiles fait partie de la 3e étape du cheminement des données : analyser et modéliser.

Qu'est-ce qu'un tableau de données?

Tout d'abord, qu'est-ce qu'un tableau de données? Un tableau de données est une série de données disposées de façon structurée en ligne et en colonnes. Il les utilisé pour afficher une grande quantité de renseignements numériques de manière organisée. Il fournit une manière claire et concise de présenter et d'analyser les données.

À quoi servent les tableaux de données?

Les tableaux de données sont utilisés pour simplifier des ensembles de données complexes pour permettre une meilleure compréhension, pour faciliter la comparaison et l'analyse des points de données, pour permettre l'identification des tendances, des schémas, des valeurs aberrantes et enfin, pour fournir une base pour créer des diagrammes, des graphiques et des visualisations.

Comment les tableaux de données sont-ils structurés?

(Tableau démontrant la prévalence de l'incapacité chez les personnes agées de 15 ans et plus, par groupe d'âge, Yukon, 2017.)

Dans les prochaines diapositives, nous allons examiner les parties principales d'un tableau étape par étape, en utilisant un exemple détaillé pour illustrer les différents éléments d'un tableau de données qui contribuent à organiser et à afficher l'information. Ces éléments le sont les suivants : le titre, l'en-têtes des colonnes, les sources, les notes, les titres de ligne, les cellules et la qualité des données.

Comment interpréter un tableau

Saviez-vous que les Canadiens ayant une incapacité sont 2 fois plus susceptibles de vivre dans la pauvreté que ceux qui n'en ont pas? En examinant les inégalités qui entraînent l'insécurité financière, la pauvreté et l'exclusion sociale avec lesquelles les personnes ayant une incapacité doivent composer. En juin 2021, le gouvernement du Canada s'est engagé à bâtir un Canada inclusif pour les personnes ayant une incapacité. Il s'agit ici d'un exemple de tableau de données qui pourrait jouer un petit rôle pour éclairer cette décision. Il illustre la prévalence de l'incapacité pour les adultes par groupe d'âge au yukon en 2017.

Étape 1 : Regardez le titreu

Alors comment lire ce tableau? La première étape est de regarder le titre. « Prévalence de l'incapacité chez les personnes âgées de 15 ans et plus, par groupe d'âge, yukon, 2017 » Ce titre nous indique que la proportion de la population adulte, répartie par groupe d'âge au yukon, qui éprouve une forme quelconque d'incapacité à un moment donné.

Étape 2 : Identifiez les en-têtes de colonnes.

Ici, nous avons 4 colonnes intitulées « Groupe d'âge », « Population totale », « Personnes ayant une incapacité », Et « Prévalence de l'incapacité ». La prévalence est exprimée en pourcentage et fournit une indication de la mesure dans laquelle les incapacités sont communes à l'intérieur de chaque groupe d'âge particulier. Ces en-têtes nous indiquent que le tableau montre les données sur la prévalence de l'incapacité, en nombre entiers et en pourcentages, par groupe d'âge, pour l'ensemble de la population du Yukon.

Étape 3 : Vérifiez les sources et les notes.

La source est « Statistique Canada, Enquête canadienne sur l'incapacité, 2017 ». Cela nous indique que les données proviennent d'une source officielle du gouvernement et que par conséquent, elles devraient être considérées comme fiables. Garantir la fiabilité de toute source de données est la clé pour vous assurer d'interpréter et d'analyser des données dignes de confiance. Ne faites jamais confiance à un tableau qui n'indique pas clairement sa source des données.

Étape 4 : Identifiez les titres de ligne.

Les titres de ligne sont le nombre total de participants à l'enquête âgés de 15 ans et plus et, par la suite, chaque rangée divise ce total par groupe d'âge. Notez que la somme des valeurs dans chaque catégorie peut différer du total en raison de l'arrondissement. Par exemple, en théorie, si vous additionnez les groupes d'âge 15 ans à 64 ans et 75 ans et plus, vous devriez obtenir le même nombre que total. Âgé de 15 ans et plus. Mais comme l'indique la note dans le tableau, ce n'est pas toujours le cas, car les données sont arrondies pour en faciliter l'utilisation lorsque le tableau est créé.

Étape 5 : Examinez la cellule.

Pour trouver la prévalence de l'incapacité pour un groupe d'âge en particulier, trouvez la ligne et la colonne qui vous intéresse et trouvez la cellule d'intersection. Par exemple, la prévalence de l'incapacité pour les personnes âgées de 45 à 64 ans se trouve dans la cellule ou la ligne « 45 à 64 » et la colonne « Prévalence de l'incapacité » se croisent, qui montre une prévalence de 29,1 %, ce qui représente 3 070 sur 10 550. Le nombre de personnes ayant une incapacité âgée de 45 à 64 ans divisée par le nombre total de personnes dans ce groupe d'âge.

Étape 6 : Tentez de trouver des schémas ou des tendances.

(Dans le tableau, il y a un E exposant à côté d'une valeur.)

En examinant les données, vous pourriez remarquer que la prévalence de l'incapacité augmente à mesure que les groupes vieillissent. Vous pourriez aussi vous demander pourquoi le pourcentage de personnes ayant une incapacité pour les 15 à 24 ans à la lettre E à côté de sa donnée...

Indicateurs de la qualité des données

La réponse est les indicateurs de la qualité des données. Statistique Canada utilise beaucoup d'autres lettres ou symboles pour indiquer la qualité des données ou d'autres renseignements importants à propos d'un point de données ou d'une estimation dans ses tableaux de données. Les lettres et les symboles les plus souvent utilisés sont les suivants :

« X » : Indique que l'estimation a été supprimée pour respecter les exigences de la Loi sur la statistique.

« E » Indique que l'estimation comporte un niveau élevé de variabilité d'échantillonnage et qu'elle doit être interprétée avec prudence.

« F » : Indique que l'estimation est trop peu fiable pour être publiée.

Ces lettres ou symboles fournissent des informations importantes sur la qualité et la fiabilité des estimations dans le tableau de données et aident les utilisateurs à prendre des décisions éclairées sur la manière d'interpréter et d'utiliser les données.

Résumé des points principaux

En résumé, dans cette vidéo, nous avons vu 3 éléments principaux pour comprendre les tableaux de données : Pourquoi les tableaux de données sont-ils importants? Comment les tableaux de données sont-ils structurés et comment interpréter les indicateurs de la qualité des données?

(Le mot-symbole « Canada » s'affiche.)

L'éthique des données (partie 2) : les examens éthiques

Numéro de catalogue : 892000062022004

Date de diffusion : le 17 octobre 2022

Dans cette vidéo, vous obtiendrez les réponses aux questions suivantes :

  • Que sont les examens éthiques?
  • Comment les examens éthiques aident-ils Statistique Canada à appliquer les principes de l'éthique des données tout au long du cheminement des données?

En vous présentant un exemple de cas d'utilisation possible, cette vidéo vous montre comment Statistique Canada utilise les examens éthiques pour appliquer les principes de l'éthique des données tout au long du cheminement des données.

Étape du parcours des données
Fondation
Compétence des données
  • Évaluation de la qualité des données
  • Intendance des données
  • Sécurité des données et gouvernance
Audience
Essentiel
Conditions préalables suggérées
L'éthique des données : une introduction
Durée
12:08
Coût
Gratuit

Voir la vidéo

L'éthique des données (partie 2) : les examens éthiques - Transcription

(Le symbol de Statistics Canada et le mot-symbol du Canada est présent avec le titre suivant: « L'éthique des données (partie 2) : les examens éthiques - Une étude de cas »)

L'acquisition, l'exploration, l'analyse et l'interprétation des données sont des étapes essentielles du processus permettant de produire des renseignements qui sont utiles pour la société, l'économie et l'environnement. Dans cette vidéo, nous discuterons de l'importance de tenir compte de l'éthique des données tout au long du processus de production de renseignements statistique.

Objectifs d'apprentissage

(Text à l'écran : Dans cette vidéo, vous obtiendrez les réponses aux questions suivantes :

  • Que sont les examens éthiques?
  • Comment les examens éthiques aident-ils Statistique Canada à appliquer les principes de l'éthique des données tout au long du cheminement des données?

Condition préalable: vidéo « L'éthique des données : Une introduction », qui se trouve également dans le catalogue d'apprentissage de l'Initiative de formation en littératie des données de Statistique Canada)

Comme préalable à cette vidéo, assurez-vous d'avoir regardé la vidéo intitulée « L'éthique des données: Une introduction », qui se trouve également dans le catalogue d'apprentissage de l'Initiative de formation en littératie des données de Statistiques Canada. Dans cette vidéo, vous obtiendrez les réponses aux questions suivantes:

  • Que sont les revues éthiques?
  • Comment les revues éthiques aident-ils Statistique Canada à appliquer les principes de l'éthique des données tout au long du chemin des données?

En vous présentant un exemple de cas d'utilisation possible, cette vidéo vous montre comment Statistique Canada utilise les revues éthiques pour appliquer les principes de l'éthique des données tout au long du cheminement des données.

Étapes du cheminement des données

(Diagramme du Cheminement des données: Étape 1 - définir, trouver, recueillir; Étape 2 - explorer, nettoyer, décrire; Étape 3 - analyser, modéliser; Étape 4 - Raconter l'histoire. Le cheminement des données est supporté par une base d'intendance, de métadonnées, de normes et qualité.)

Ce diagramme est une représentation visuelle du cheminement des données, de leur collecte jusqu'au moment d'en raconter l'histoire à d'autres, en passant par leur exploration, leur nettoyage, leur description, leur compréhension et leur analyse.

Les principes de l'éthique des données sont pertinents à toutes les étapes du cheminement des données.

Qu'est-ce qu'un examen éthique?

(Text à l'écran :

  • Série de questions, de commentaires et d'énoncés permettant d'obtenir suffisamment de renseignements sur un projet donné pour pouvoir tenir une discussion rationnelle sur le fondement éthique de ce projet.
  • Toujours effectué par plus d'une personne. Chaque membre du comité d'éthique doit avoir une expérience professionnelle en sciences ou en éthique.
  • A comme objectif de donner une orientation éthique aux personnes qui travaillent sur le projet.
  • Organisé selon les six principes directeurs de l'éthique des données à Statistique Canada.)

Dans la première partie de cette série de vidéos sur l'éthique des données, nous vous avons présenté le concept de l'éthique des données et les raisons pour lesquelles l'éthique des données est importante. Nous avons également traité de la façon dont les revues éthiques permettent d'obtenir suffisamment de renseignements sur l'acquisition de données ou sur un projet donné afin de pouvoir tenir une discussion rationnelle sur le fondement éthique de ce projet. Plus d'une personne participe toujours à la revue et chaque personne doit avoir une expérience professionnelle en sciences ou en éthique afin de pouvoir donner des conseils en matière d'éthique aux personnes qui travaillent sur le projet.

La revue éthique que nous utiliserons dans cette étude de cas est organisée sur les six principes directeurs de l'éthique des données à Statistique Canada.

Les six principes directeurs

(Text à l'écran : Les six principes directeurs de l'éthique des données à Statistique Canada sont...

  • Les données sont utilisées à des fins qui bénéficient à la population canadienne
  • Les données sont utilisées de façon sécuritaire et confidentielle
  • Les acquisitions et les méthodes de traitement des données sont transparentes et responsables
  • Les acquisitions et les méthodes de traitement des données sont fiables et viables
  • Les données proprement dites sont de grande qualité
  • Tout renseignement tiré des données est présenté de manière équitable et ne cause aucun préjudice)

À Statistique Canada, la revue éthique d'un projet repose généralement sur 6 principes directeurs:

  • Les données sont utilisées à des fins qui bénéficient à la population canadienne.
  • Les données sont utilisées de façon sécuritaire et qui respectent la vie privée.
  • Les acquisitions et les méthodes de traitement des données sont transparentes et responsables.
  • Les acquisitions et les méthodes de traitement des données sont fiables et viables.
  • Les données proprement dites sont de grande qualité.
  • Tout renseignement tiré des données est présenté de manière équitable et ne causent aucun préjudice.

Étude de cas : Enquête sur la consommation de stupéfiants chez les mineurs

(Text à l'écran : Le Centre de données sur la santé de la population élabore actuellement une nouvelle enquête, l'Enquête canadienne sur la consommation de stupéfiants chez les jeunes (ECCSJ) de 2022. Étant donné que les jeunes constituent une population vulnérable et que le sujet pourrait être considéré comme délicat, l'examen éthique a pour objectif d'aider Statistique Canada à prendre des décisions éclairées en ce qui a trait à l'acquisition des données en question, et à remplir les documents requis permettant de justifier l'utilisation des données.

L'Enquête canadienne sur la consommation de stupéfiants chez les jeunes (ECCSJ) de 2022 est une enquête fictive qui sera utilisée comme exemple tout au long de cette vidéo.)

L'enquête présentée ci-après est une enquête fictive qui sera utilisée comme exemple tout au long de cette vidéo. Le centre de données sur la santé de la population élabore actuellement une nouvelle enquête, l'Enquête canadienne sur la consommation de stupéfiants chez les jeunes de 2022. Étant donné que les jeunes constituent une population vulnérable et que le sujet pourrait être considéré comme délicat, la revue éthique a pour objectif d'aider Statistique Canada à prendre des décisions éclairées en ce qui a trait à l'acquisition des données en question et à remplir les documents requis permettant de justifier l'utilisation des données.

Avantage pour la population canadienne

(Text à l'écran : L'utilisation des données devrait permettre de prendre des décisions éclairées et de gérer efficacement les ressources, ce qui aura au bout du compte des retombées positives sur la vie des Canadiens.

  • Pourquoi les données sont-elles nécessaires? Qui en profitera et comment?
  • Quelles seraient les exemples de façons dont les données pourraient être utilisées pour aider les Canadiens?)

Pour ce qui est des avantages pour la population canadienne, la revue éthique doit permettre de veiller à ce que l'acquisition des données soit nécessaire et de donner des exemples de façon dont les données pourraient être utilisées pour aider les Canadiens.

Étude de cas : Avantages pour la société

(Text à l'écran : Il est nécessaire d'obtenir des données sur la consommation de stupéfiants chez les jeunes, car cela permettrait d'affecter des ressources et de créer des programmes de prévention adaptés aux variables particulières qui ont une incidence sur la consommation de drogues chez les jeunes Canadiens.

  • Exemple : Les réponses à l'enquête pourraient révéler un lien entre le fait d'être victime d'intimidation à l'école et la consommation de drogues. Les programmes pourraient viser la lutte contre l'intimidation.
  • Une lacune statistique persistante dans ce domaine pourrait avoir des conséquences négatives.)

En ce qui concerne notre étude de cas, la raison pour laquelle nous recueillons des données sur la consommation de stupéfiants chez les jeunes et que des données sur la consommation de stupéfiants ou d'opioïdes, particulièrement chez les mineurs, n'étaient auparavant pas recueillies, et que l'acquisition de telles données pourrait permettre d'affecter des ressources et de créer des programmes de prévention adaptés en fonction des facteurs précis qui ont une incidence sur la consommation de drogues chez les jeunes Canadiens.

Par exemple, si l'analyse des données révèle un lien entre le fait d'être victime d'intimidation à l'école et la consommation de stupéfiants, de tels programmes de prévention pourraient viser la lutte contre l'intimidation. Inversement, certains pourraient soutenir que le fait de ne pas réaliser l'enquête pourrait avoir des conséquences négatives. La plus grave, c'est le nombre de décès qui auraient pu être évités si les lacunes statistiques actuelles avaient été comblés et que des programmes de prévention avaient été mis en place.

Protection des renseignements personnels et sécurité

(Text à l'écran : Il existe un juste équilibre entre le respect de la vie privée et la production de renseignements. Nous devons veiller à ce que toute intrusion pouvant être causée par nos activités statistiques soit proportionnelle aux exigences considérées comme absolument nécessaires à la production des renseignements.

  • Chaque point de données compte. Tous les renseignements demandés sont-ils nécessaires?
  • Quelles mesures sont prises pour protéger les renseignements personnels des Canadiens?)

Vie privée et sécurité.

Il existe un juste équilibre entre le respect de la vie privée et la production de renseignement. Nous devons veiller à ce que toute intrusion pouvant être causée par nos activités statistiques soit proportionnelles aux exigences considérées comme absolument nécessaires à la production des renseignements.

N'oubliez pas que chaque point de données compte. Alors, tous les renseignements demandés sont-ils vraiment nécessaires?

Quelles mesures sont prises pour protéger les renseignements personnels des Canadiens?

Étude de cas : Protection des renseignements personnels et sécurité

(Text à l'écran :

  • Pourquoi demandons-nous les renseignements en question?
    • Il existe actuellement une lacune statistique concernant la consommation de stupéfiants chez les jeunes. Autrement dit, il n'existe aucune source de données.
  • Quelles mesures sont prises pour protéger les renseignements personnels des répondants?
    • Les questionnaires seront protégés par un mot de passe et auront une option de sortie rapide pour que la protection des renseignements personnels soit assurée tout au long du processus de réponse à l'enquête.)

Notre enquête fictive contient des questions pouvant être délicates pour les jeunes; nous devons donc expliquer comment l'acquisition des données est proportionnelle à l'avantage qu'elle est censée permettre d'obtenir. Dans le cas présent, il n'existe pas d'autres données fiables disponibles et l'enquête deviendrait donc une option viable pour les programmes nécessitant de tels renseignements.

Le processus de la revue éthique nous permet également d'examiner plus en profondeur les mesures de sécurité qui sont prises pour éviter toute atteinte à la vie privée, ainsi que les contre-mesures en place en cas d'une telle atteinte. Pour l'enquête sur la consommation de stupéfiants chez les jeunes, des mécanismes de sécurité sont en place pour protéger les renseignements personnels des répondants, qui, en tant que mineurs, pourraient se sentir plus à l'aise de savoir que leurs réponses demeureront confidentielles. Nous traiterons des détails de ces mesures plus loin dans la vidéo.

Transparence et responsabilisation

(Text à l'écran : Les organismes statistiques ont la responsabilité d'être transparents quant à la provenance des données, à leur utilisation et aux mesures prises pour assurer la confidentialité.

  • Veuillez donner des précisions sur les stratégies qu'ils ont l'intention de mettre en place pour informer les Canadiens au sujet de l'acquisition des données en question.
  • Comment communiquons-nous les avantages que procure l'acquisition et les mesures prises pour protéger les renseignements personnels?)

Les organismes statistiques ont la responsabilité d'être transparents quant à la provenance des données, à leur utilisation et aux mesures prises pour assurer la confidentialité.

Parmi les questions fréquemment posées à cette étape, les organismes statistiques sont souvent invités à donner des précisions sur les stratégies qu'ils ont l'intention de mettre en place pour informer les Canadiens au sujet de l'acquisition des données en question, ainsi que les avantages que procurent l'acquisition des données à la population canadienne et sur les mesures prises pour protéger les renseignements personnels.

Étude de cas : Transparence et responsabilisation

(Text à l'écran :

  • Quelles stratégies seront mises en place pour informer les jeunes Canadiens au sujet de l'enquête?
    • Des renseignements sur l'enquête seront publiés sur le site Web de Statistique Canada, et toutes les parties intéressées y auront accès. Dans le questionnaire d'enquête, les jeunes répondants seront informés des objectifs de l'enquête.
    • Le questionnaire contiendra également des renseignements sur les avantages que l'enquête devrait procurer à la société, sur les mesures prises pour protéger les renseignements personnels et sur la façon dont les renseignements demeureront confidentiels.)

Dans notre étude de cas, les aspect liés à la transparence et à la responsabilisation seront traitées lorsque les stratégies qui seront mises en place pour informer les jeunes Canadiens au sujet de l'enquête seront précisées. Des renseignements sur l'enquête seront publiés sur le site Web de Statistique Canada et toutes les parties intéressées y auront librement accès. De plus, dans le questionnaire d'enquête, les jeunes répondants seront informés des objectifs de l'enquête.

Le questionnaire contiendra également des renseignements sur les avantages que l'enquête devrait procurer aux répondants et à la société en général, sur les mesures prises pour protéger les renseignements personnels et sur la façon dont les renseignements demeureront confidentiels, même si les données sont utilisées par un autre organisme gouvernemental pour les besoins de ses recherches et de ses programmes. Dans de tels cas, il pourrait s'agir de Santé Canada et de l'Agence de la santé publique du Canada.

Qualité des données.

(Text à l'écran : Les données acquises doivent être aussi représentatives et exactes que possible.

  • Des sources potentielles de biais pour cette source de données ont-elles été relevées jusqu'à présent? Si oui, comment seront-elles gérées?)

Les Canadiens devraient pouvoir s'attendre à ce que les données acquises par leur gouvernement et les renseignements statistiques fournis par celui-ci soit aussi représentatif que possible. Pour satisfaire une telle attente, il faut veiller à ce qu'aucun biais ni aucune erreur ne remettent en question les avantages potentiels d'un projet. À Statistique Canada, nous satisfaisons à une telle attente en appliquant des méthodes scientifiquement éprouvées et statistiquement rigoureuses à toutes les étapes du cheminement des données.

Étude de cas : Qualité des données

(Text à l'écran :

  • Sources possibles de biais:
    • Les jeunes répondants vivent souvent chez leurs parents. Il pourrait y avoir un biais important si les répondants ne répondent pas honnêtement.
  • Comment seront-elles gérées?
    • Les questionnaires seront protégés par un mot de passe et auront une option de sortie rapide, ce qui permettra de rassurer les répondants sur leur capacité de préserver instantanément leurs réponses et la confidentialité de leurs renseignements personnels, que ce soit dans un endroit public ou dans un logement familial.)

Les répondants vivent souvent chez leurs parents, ce qui représente une menace pour la qualité des données, car certains des répondants ne jouissent peut-être pas de la protection totale de la vie privée leur permettant de donner des réponses honnêtes aux questions, surtout en ce qui concerne la consommation de drogues, qu'elles soient illégale ou prescrite. Il pourrait y avoir un biais important si les répondants ne répondent pas honnêtement. Nous avons déjà mentionné que les questionnaires seront protégés par un mot de passe et auront une option de sortie rapide, ce qui permettra de préserver la confidentialité des renseignements personnels, mais le risque de biais demeure présent si le répondeur trouve que les questions sont trop personnelles.

Équité et absence de préjudice

(Text à l'écran : Dans le cadre d'activités statistiques, il est nécessaire de tenir compte de tous les risques qu'une activité statistique peut présenter pour le bien-être de personnes ou de groupes particuliers.

  • Pouvez-vous prévoir les conséquences négatives qu'une personne pourrait subir à la suite de l'acquisition des données en question?
  • Une partie du processus d'acquisition des données pourrait-elle causer un stress excessif aux Canadiens?)

Équité et absence de préjudice.

Il faut tenir compte de tous les risques pour le bien-être des Canadiens. Il faut tenir compte de la façon dont les activités statistiques sont menées et de la façon dont les renseignements qui en résultent sont communiqués afin de promouvoir l'équité entre tous les Canadiens. Pour que les activités soient équitables et ne causent aucun préjudice, il faut prévoir, avant de recueillir ou d'obtenir les données, les conséquences négatives qu'une personne pourrait subir à la suite de l'acquisition des données. Ou est-il possible qu'une partie du processus d'acquisition des données puisse causer un stress excessif aux Canadiens?

Étude de cas : Équité et absence de préjudice

(Text à l'écran :

  • Dans le cas échéant, quelles conséquences négatives un répondant pourrait-il subir en répondant à l'enquête?
    • Certains des sujets abordés dans l'enquête peuvent déclencher des réactions émotionnelles : intimidation, santé mentale, rendement scolaire
  • Comment traiterez-vous les questions qui pourraient bouleverser les répondants?
    • Des ressources en santé mentale seront offertes aux répondants lorsqu'ils rempliront le questionnaire, et les intervieweurs ont reçu une formation pour gérer les situations difficiles.)

Pour ce qui est des conséquences négatives que pourrait entraîner la participation à notre enquête fictive, des questions sur les expériences vécues au chapitre de l'intimidation, de la santé mentale ou du rendement scolaire pourrait déclencher des réactions émotionnelles chez les répondants de l'enquête sur la consommation de stupéfiants chez les mineurs. Dans le cas présent, le comité de la revue éthique aurait dû s'enquérir des mesures prises pour atténuer ce risque et il a confirmé que des ressources en santé mentale seront mises à la disposition des répondants tout au long du processus de réponse au questionnaire et, au besoin, après.

Confiance et viabilité.

(Text à l'écran : Statistique Canada a besoin de la participation active des Canadiens pour pouvoir poursuivre ses activités statistiques à l'avenir.

  • Comment allons-nous nous assurer de pouvoir continuer à produire des renseignements de grande qualité qui importent aux Canadiens tout en maintenant la confiance du public à long terme?)

Statistique Canada a besoin de la participation active des Canadiens pour que nous puissions poursuivre nos activités statistiques à l'avenir. Assurer la confidentialité, protéger les renseignements personnels, produire des données représentatives et être responsable sont tous des choix que Statistique Canada fait pour montrer aux Canadiens qu'il mérite leur confiance.

Cette confiance est essentielle si statistique Canada veut continuer à produire des renseignements de grande qualité qui importent aux Canadiens tout en maintenant la confiance du public à long terme.

Étude de cas : Confiance et viabilité

(Text à l'écran : Les répondants seront informés du fait que les renseignements qu'ils donnent ne seront pas communiqués aux autorités, aux parents ou à tout autre tuteur.

Le fait d'expliquer nos processus opérationnels statistiques, y compris nos examens éthiques, permettra de maintenir la confiance des Canadiens et, par conséquent, d'assurer la viabilité de nos programmes statistiques.)

Le dernier principe directeur que nous évaluons dans la présente étude de cas est la confiance et la viabilité. afin de maintenir la confiance des jeunes Canadiens, nous expliquerons aux répondants que les renseignements qu'ils donnent ne seront pas communiqués aux autorités ni à leurs parents. Le fait d'expliquer nos processus opérationnels statistiques, y compris nos revues éthiques, permettra de maintenir la confiance des Canadiens, leur confiance dans nos processus et notre promesse de confidentialité. Parce qu'en l'absence d'une telle confiance, nous ne pouvons pas continuer à produire des renseignements de grande qualité qui profitent à la société, à l'économie et à l'environnement.

Résumé des principaux points

(Text à l'écran :

  • Les examens éthiques sont une série de questions et de commentaires permettant d'obtenir suffisamment de renseignements sur un projet donné pour pouvoir tenir une discussion rationnelle sur le fondement éthique de ce projet.
  • À Statistique Canada, les examens éthiques sont organisés selon les six principes directeurs de l'éthique des données.)

Dans cette vidéo intitulée « L'éthique des données : les revues éthiques », nous avons appris que les revues éthiques sont une série de questions et de commentaires permettant d'obtenir suffisamment de renseignements sur un projet donné pour pouvoir tenir une discussion rationnelle sur le fondement éthique de ce projet.

À Statistique Canada, les revues éthiques sont organisées salon les six principes directeurs de l'éthique des données.

(Le mot-symbole « Canada » s'affiche.)

Qu'avez-vous pensé?

S'il vous plaît nous donner vos commentaires afin que nous puissions mieux fournir des produits qui répondent aux besoins de nos utilisateurs.

Statistique 101 : biais statistique

Numéro de catalogue : 892000062022005

Date de diffusion : le 17 octobre 2022

Dans cette vidéo, nous expliquerons le concept de biais statistique, qui se produit lorsque les statistiques diffèrent systématiquement de la réalité qu'elles tentent de mesurer en raison de problèmes liés à la manière dont les données ont été produites.

Étape du parcours des données
Fondation
Compétence des données
  • Analyse des données
  • Évaluation de la qualité des données
  • Identifier les problèmes à l'aide des donnés
Audience
Essentiel
Conditions préalables suggérées
s.o.
Durée
11:37
Coût
Gratuit

Voir la vidéo

Statistique 101 : biais statistique - Transcription

(Le symbole et le mot-symbole de Statistique Canada apparaissent sur l'écran  : « Statistique 101 : biais statistique ».)

Dans le langage courant, les biais font référence à la façon dont le point de vue, les valeurs ou les croyances d'une personne peuvent influer sur son jugement ou ses décisions dans des circonstances particulières.

Dans cette vidéo, nous expliquerons le concept de biais statistique, qui se produit lorsque les statistiques diffèrent systématiquement de la réalité qu'elles tentent de mesurer en raison de problèmes liés à la manière dont les données ont été produites.

Objectifs d'apprentissage

Avant de parler de biais, nous allons commencer par dire quelques mots sur l'erreur. Les statistiques sont des mesures qui décrivent notre société, l'activité économique ou d'autres aspects du monde qui nous entoure. Bien qu'elles tentent d'estimer la valeur réelle aussi précisément que possible, elles peuvent souvent contenir un certain niveau d'erreur. Le biais statistique est la différence entre la mesure statistique et la valeur réelle.

Dans cette vidéo, vous obtiendrez les réponses aux questions suivantes:

  • Quels sont les différents types d'erreurs?
  • Quels sont les types d'erreurs qui entraînent un biais statistique?

À quelle étape du parcours des données est-il possible que des erreurs entraînant des biais statistiques puissent survenir?

Étapes du cheminement des données

(Diagramme du Cheminement des données : Étape 1 - définir, trouver, recueillir; Étape 2 - explorer, nettoyer, décrire; Étape 3 - analyser, modéliser; Étape 4 - raconter l'histoire. Le cheminement des données est appuyé par une base d'intendance, de métadonnées, de normes et de qualité.)

Ce diagramme est une représentation visuelle du parcours des données, de leur collecte jusqu'au moment d'en raconter l'histoire à d'autres, en passant par leur exploration, leur nettoyage, leur description, leur compréhension et leur analyse.

Les erreurs entraînant un biais statistique peuvent survenir à n'importe quelle étape du parcours des données.

Quels sont les différents types d'erreurs?

Lorsqu'on essaie de mesurer et d'analyser des données, il faut s'attendre à un certain niveau d'erreur. Qu'entendons nous exactement lorsque nous disons qu'il existe différents types d'erreurs? Accepter que des erreurs existent n'est pas nécessairement une mauvaise chose, mais il est important de comprendre que toutes les erreurs ne sont pas égales. Les 2 principaux types d'erreurs que nous allons étudier aujourd'hui sont l'erreur aléatoire et l'erreur systématique.

Erreur aléatoire ou systématique

Les erreurs aléatoires introduisent une variabilité entre des mesures distinctes du même objet. Par exemple, des réponses ou des mesures reçues ou effectuées à des moments différents peuvent entraîner une variabilité de réponse ou un autre échantillon sélectionné de façon aléatoire peut entraîner une variabilité d'échantillonnage.

Le caractère aléatoire peut également se manifester dans les procédures de traitement des données. Néanmoins, dans ces cas, les mesures ont toujours tendance à se regrouper autour de la valeur réelle. Par conséquent, malgré quelques erreurs, elles sont toujours exactes.

D'autre part, les mesures systématiques se traduisent par une variabilité non aléatoire qui déforme ou éloigne la mesure de la valeur réelle, ce qui donne une mesure qui peut être plus petite, plus grande, plus élevée ou plus basse que la valeur réelle et peut aboutir à des conclusions incorrectes.

Qu'est-ce qu'un biais statistique?

Maintenant que nous comprenons la différence entre les erreurs aléatoires, les erreurs systémiques et la manière dont les erreurs systémiques peuvent entraîner des conclusions inexactes, à partir de ce point de la vidéo, nous appellerons ces conclusions inexactes biais statistique, car lorsque nous parlons de biais statistiques, ce que nous voulons vraiment dire, c'est qu'une statistique diffère de la réalité qu'elle tente de mesurer en raison d'erreurs systématiques dans la manière dont les données ont été recueillies, déclarées ou analysées?

Où chercher un biais statistique

Les statistiques biaisées peuvent provenir d'un grand nombre de sources de données, qu'il s'agisse de données d'enquête, de données administratives, de mégadonnées, etc. De même, il existe de nombreux types d'erreurs différentes qui peuvent entraîner des biais. Aujourd'hui, cependant, nous nous concentrerons sur 3 domaines particuliers susceptibles d'afficher des erreurs systémiques qui peuvent entraîner des statistiques biaisées. Il s'agit d'erreurs : de collecte des données, de mesure et d'analyse.

Collecte des données

En commençant par la collecte des données, un biais peut avoir lieu en cas d'erreurs systématiques dans la façon dont les données sont recueillies, ce qui mène à des données qui ne représentent pas adéquatement la population que l'on cherche à mesurer. Voici quelques exemples de biais :

  • le biais de couverture,
  • le biais de non-réponse et
  • le biais d'autosélection.

Biais de couverture

Un biais de couverture survient lorsque, en raison de la matière dont le processus de collecte des données a été conçu, il exclut (ou inclut) des groupes qui font (ou ne font pas) partie de la population cible. Les principales sources d'erreurs de couverture sont les suivantes:

  • le sous-dénombrement - le fait de ne pas inclure tous les membres de la population qui devraient être inclus; et
  • le surdénombrement - le fait d'inclure dans la population des membres qui ne devraient pas être inclus.

Par exemple, une enquête tente de mesurer les habitudes de dépenses quotidiennes des Canadiens, mais le questionnaire n'est disponible que sur les téléphones intelligents. Les résultats de l'enquête ne comprendront pas les données des personnes ne possédant pas de téléphones intelligents. Comme le nombre de personnes possédant un téléphone intelligent inférieur à la population cible de tous les Canadiens, il y a un biais de couverture, car une partie de la population, celle qui ne possède pas de téléphone intelligent, n'est pas « couverte » par l'enquête.

Biais de non-réponse

Un biais de non-réponse se produit lorsque la réponse des répondants diffère par rapport à celle des personnes qui choisissent de ne pas répondre.

Parmi les causes de biais de non-réponse, citons le manque d'intérêt à l'égard du sujet. Par exemple, les gens peuvent être moins enclins, à répondre à une enquête si elle ne les intéresse pas ou s'il estime qu'elle ne leur procure personnellement aucun avantage. Les sujets sensibles peuvent également entraîner un biais de non-réponse si une personne a le sentiment que le questionnaire pose des questions trop personnelles ou trop sensibles.

Biais d'autosélection

Un biais d'autosélection se produit lorsque les personnes qui se portent volontaires pour fournir des données ou participer à une étude différente de celles qui ne se portent pas volontaires. On pourrait même dire que le biais d'autosélection est l'exact opposé du biais de non-réponse, même s'il contribuent tous deux à des conclusions inexactes.

Mesure

Le prochain domaine que nous allons explorer dans notre recherche des sources du biais statistique est la mesure. Un biais de mesure se produit en cas d'erreur systématiques dans la façon de mesurer ou de rendre compte du concept d'intérêt.

Voici quelques exemples:

  • le biais de rappel,
  • le biais dû à la désirabilité sociale,
  • les questions suggestives et
  • les outils de mesure défectueux.

Biais de rappel

Un biais de rappel se produit lorsque les répondants ne se souviennent pas précisément d'événements ou d'expériences antérieures ou en omettant des détails. Par exemple, un répondant peut avoir de la difficulté à se souvenir du montant qu'il a payé pour l'essence au cours du dernier mois. Ou encore, si l'on demande aux répondants de parler des visites chez le médecin au cours de l'année écoulée, il peut inclure une visite datant de 15 mois ou oublier une visite datant de 10 mois.

Biais dû à la désirabilité sociale

Un biais dû à la désirabilité sociale se produit lorsque les participants, consciemment ou non, répondent aux questions en tentant de donner une image plus positive d'eux-mêmes. Par exemple, une personne peut surdéclarer ce qu'elle considère comme étant un bon comportement, comme la quantité d'exercice qu'elle fait dans une journée ou la quantité de fruits et légumes qu'elle mange, ou sous-déclarer des comportements socialement plus indésirables, comme le tabagisme.

Questions suggestives

On parle de questions suggestives lorsqu'une question d'enquête incite, encourage ou guide le répondant vers une réponse préalablement déterminée ou souhaitée. Par exemple, la formulation, « la plupart des gens pensent que c'est un excellent restaurant. Êtes-vous d'accord? » Peut susciter des réponses plus positives qu'une formulation plus neutre, comme « comment évaluez-vous ce restaurant? »

Outils de mesure défectueux

Un biais peut se produire lorsque les outils ou les mesures servant à recueillir des données sont défectueux, fonctionnent mal ou sont utilisés de manière inexacte, ce qui entraîne des estimations systématiquement différentes. Par exemple, des outils de mesure comme un pèse-personne dans un cabinet médical qui est mal étalonné et qui affichera donc systématiquement des poids incorrects.

Analyse

Jusqu'à présent, nous avons vu comment les erreurs peuvent entraîner des biais lors des étapes de collecte et de mesure des données, mais, dans cette 3e et dernière partie de la vidéo, nous aborderons le biais analytique, qui peut se produire lorsque l'analyse des données est effectuée à partir de données non représentatives ou lorsqu'un modèle ou un chercheur oriente, les résultats d'une étude vers un résultat spécifique.

Voici des exemples de biais induits par les chercheurs:

  • le biais de confirmation et
  • le biais de modélisation.

Biais de confirmation

Si l'analyse est réalisée pour soutenir un point de vue ou un récit spécifique, elle peut être biaisée, c'est-à-dire qu'elle peut laisser de côté ou exclure des éléments importants qui ne correspondent pas à ce point de vue ou à ce récit. Un biais de confirmation se produit lorsque les analystes de données ne retiennent que les données et les résultats qui cadrent avec leur hypothèse ou leurs propres croyances.

Biais de modélisation

Un biais peut survenir dans la modélisation des données lorsque les données utilisées ne sont pas représentatives ou lorsque le modèle ou l'algorithme est également biaisé et ne représente pas de façon exacte le phénomène qu'il cherche à représenter.

Un exemple de données de formation non représentatives est l'utilisation des données historiques d'une entreprise pour pourvoir un nouveau poste. Si l'algorithme porte sur des données montrant que la plupart des embauches et des promotions réussies dans l'entreprise sont le fait d'hommes, il apprendra à rechercher et à continuer de suggérer des hommes dans les futurs rôles.

Un exemple d'algorithme biaisé, toutefois, est le fait que l'algorithme soit programmé pour filtrer au préalable les résultats en excluant les candidats dont le nom de famille comporte des caractères non présents dans l'alphabet anglais.

Principaux points à retenir

Pour récapituler ce que nous avons appris dans cette vidéo :

  • Il existe deux principaux types d'erreurs : l'erreur aléatoire et l'erreur systémique.
  • Le biais statistique désigne les différences entre une estimation et la valeur réelle.
  • Les trois domaines particuliers susceptibles de faire l'objet d'erreurs pouvant entraîner des biais comprenant les suivants : les biais dans la population couverte par les données, les biais dans la mesure des concepts d'intérêt et les biais dans l'analyse ou les méthodes utilisées pour l'analyse.

(Le mot-symbole « Canada  » s'affiche.)

Qu'avez-vous pensé?

S'il vous plaît nous donner vos commentaires afin que nous puissions mieux fournir des produits qui répondent aux besoins de nos utilisateurs.

Statistique 101 : intervalles de confiance

Numéro de catalogue : 892000062022003

Date de diffusion : le 24 mai 2022 Mise à jour : le 25 janvier 2023

À la fin de cette vidéo, vous devriez avoir des réponses aux questions suivantes :

  • Que sont les intervalles de confiance?
  • Pourquoi utilisons-nous les intervalles de confiance?
  • Quels sont les facteurs qui ont un impact sur les intervalles de confiance?
Étape du parcours des données
Fondation
Compétence des données
  • Analyse des données
  • Interprétation des données
Audience
Essentiel
Conditions préalables suggérées
Durée
11:30
Coût
Gratuit

Voir la vidéo

Statistique 101 : intervalles de confiance - Transcription

(Le symbole et le mot-symbole de Statistique Canada apparaissent sur l'écran : « Statistique 101 : Intervalles de confiance ».)

Statistique 101 : Intervalles de confiance

Avez-vous déjà entendu un tel énoncé?

(Texte à l'écran : 37 % des Canadiens prévoient travailler à domicile dans un proche avenir, selon une enquête en ligne réalisée auprès de 2 000 adultes canadiens, avec une marge d'erreur de +/- 2,0 points de pourcentage, 19 fois sur 20. Savez-vous ce que signifie « une marge d'erreur de +/- 2,0 points de pourcentage, 19 fois sur 20 »? Il s'agit d'un exemple d'intervalle de confiance.)

Vous avez probablement entendu à la radio, à la télévision ou lu dans le journal un énoncé de ce type : 37 % des Canadiens prévoient travailler à domicile dans un avenir proche, selon une enquête en ligne réalisée auprès de 2 000 adultes canadiens, avec une marge d'erreur de +/- 2,0 points de pourcentage, 19 fois sur 20. Mais qu'est-ce que cela signifie exactement, et pourquoi les renseignements sont-ils présentés de cette manière? Travailler avec des statistiques implique un élément d'incertitude. Dans cette vidéo, nous allons voir comment les intervalles de confiance et leurs concepts sous-jacents nous aident à comprendre et à mesurer cette incertitude. L'énoncé ci-dessus présente en fait un exemple d'intervalle de confiance, même si, à première vue, il ne ressemble pas à un intervalle. Dans ce cas, l'intervalle est de 37 % +/- 2,0 % – en d'autres termes, l'intervalle va de 35 % à 39 %. À la fin de cette présentation, vous serez en mesure de lire des énoncés similaires et de comprendre qu'ils représentent des intervalles de confiance. Vous comprendrez également ce qu'est une « marge d'erreur » et ce que signifie l'expression « 19 fois sur 20 ». Comme préalable à cette vidéo, assurez-vous d'avoir regardé nos autres vidéos « Statistique 101 » intitulées « Explorer les mesures de la tendance centrale » et « Explorer les mesures de la dispersion ».

Objectifs d'apprentissage

(Texte à l'écran : Dans cette vidéo, vous obtiendrez les réponses aux questions suivantes :

  • Que sont les intervalles de confiance?
  • Pourquoi utilise-t-on des intervalles de confiance?
  • Quels facteurs ont un impact sur un intervalle de confiance?)

À la fin de cette vidéo, vous comprendrez ce que sont les intervalles de confiance, pourquoi nous les utilisons et quels facteurs ont un impact sur eux. Si vous comprenez les mesures de la tendance centrale et les mesures de la dispersion avant de regarder cette vidéo, vous comprendrez mieux les intervalles de confiance.

Étapes du cheminement des données

(Texte à l'écran : Étapes du cheminement des données est appuyé par une base d'intendance, de métadonnées, de normes et de qualité.)

(Diagramme du Cheminement des données : Étape 1 - définir, trouver, recueillir ; Étape 2 - explorer, nettoyer, décrire ; Étape 3 - analyser, modéliser ; Étape 4 - raconter l'histoire. Le cheminement des données est appuyé par une base d'intendance, de métadonnées, de normes et de qualité.)

Ce diagramme est une représentation visuelle du cheminement des données, de la collecte des données à l'exploration, au nettoyage, à la description et à la compréhension des données, à l'analyse des données et, enfin, à la communication avec les autres de l'histoire que racontent les données.

Étape 2 : Explorer, nettoyer et décrire ; Étape 3 : Analyser et modéliser ; et Étape 4 : Raconter l'histoire

Les intervalles de confiance sont utiles aux étapes 2, 3 et 4 du cheminement des données.

Qu'est-ce qu'un intervalle de confiance?

(Texte à l'écran :

Présente une plage de valeurs possibles, plutôt qu'une seule valeur estimée.

Représente l'incertitude résultant de l'utilisation d'un échantillon.

La largeur de l'intervalle de confiance est liée au niveau d'incertitude.)

(Figure 1 montrant un exemple d'intervalle de confiance : la note moyenne à un test de mathématiques dans une classe de 100 élèves. La valeur estimée est de 70 %, la borne inférieure est à 60 % et la borne supérieure est à 80 %. Les valeurs comprises entre les limites inférieure et supérieure représentent l'intervalle de confiance.)

Un intervalle de confiance est une plage de valeurs possibles pour une chose que nous voulons estimer – p. ex. quelle est la note moyenne à un test de mathématiques dans une classe de 100 élèves? Elle est généralement basée sur un échantillon représentatif de la population ; cependant, l'échantillon est souvent petit par rapport à la population. Dans cet exemple, nous avons les notes de mathématiques d'un échantillon de 10 élèves d'une classe de 100 élèves. Comme l'estimation est basée sur un échantillon, il subsiste une certaine incertitude quant à la valeur réelle. L'intervalle de confiance tient compte de cette incertitude en présentant une plage de valeurs, et pas seulement l'estimation elle-même. Plus l'incertitude est grande, plus l'intervalle de confiance sera large.

Pourquoi utilise-t-on des intervalles de confiance?

(Figure 1 montrant un jeune homme se demandant pourquoi nous utilisons des intervalles de confiance.)

En statistique, nous estimons souvent une valeur pour une population totale en utilisant un échantillon. La valeur dérivée de l'échantillon n'est pas la valeur réelle, mais une estimation de celle-ci.

Exemple d'intervalle de confiance

(Figure 1 démontrant une classe de 100 étudiants et un échantillon de 10 étudiants. Figure 2 démontrant l'intervalle de confiance, avec une valeur estimée de 70 %, une borne inférieure à 60 %, une borne supérieure à 80 % et une valeur vraie de 73 %.)

Dans cet exemple, nous avons une classe de 100 élèves, chacun ayant une note en pourcentage pour un test de mathématiques. La moyenne de la classe pour le test de mathématiques est de 73 %. Cependant, nous n'examinons pas les notes de tous les membres de la population, mais seulement celles d'un échantillon de 10 personnes. En prenant un échantillon aléatoire on obtient une note moyenne estimée à 70 %, avec un intervalle de confiance de + ou – 10 %. Dans cet exemple, notre estimation de 70 % est différente de la moyenne réelle de 73 %, mais la moyenne réelle se situe dans l'intervalle de confiance.

Exemple d'intervalle de confiance

(Figure 1 démontrant une classe de 100 étudiants et un échantillon de 10 étudiants. Figure 2 démontrant l'intervalle de confiance, avec une valeur estimée de 65 %, une borne inférieure à 55 %, une borne supérieure à 75 % et une valeur vraie de 73 %.)

En prenant un autre échantillon aléatoire, nous obtenons une note moyenne estimée différente, égale à 65 %, qui n'est pas non plus égale à la vraie moyenne de 73 %, mais l'intervalle de confiance de 55 % à 75 % contient toujours la vraie moyenne.

Exemple d'intervalle de confiance

(Figure 1 démontrant une classe de 100 étudiants et un échantillon de 10 étudiants. Figure 2 démontrant l'intervalle de confiance, avec une valeur estimée de 78 %, une borne inférieure à 68 %, une borne supérieure à 88 % et une valeur vraie de 73 %.)

Un troisième échantillon de la même classe permet d'obtenir une note moyenne estimée à 78 %. Encore une fois, cette estimation diffère de la vraie moyenne de 73 %, mais de nouveau, l'intervalle de confiance contient la vraie moyenne.

Valeur estimée

(Figure illustrant un intervalle de confiance, avec la valeur estimée mise en évidence au centre.)

L'estimation de l'échantillon se situe généralement au centre de l'intervalle de confiance.

Valeur estimée

(Figure illustrant un intervalle de confiance, mettant en évidence les bornes inférieure et supérieure de l'intervalle à égale distance de la valeur estimée.)

Les bornes supérieure et inférieure de l'intervalle de confiance sont à égale distance au-dessus et au-dessous de la valeur estimée.

Valeur estimée

(Figure démontrant un intervalle de confiance, mettant en évidence la marge d'erreur en dessous et au-dessus de la valeur estimée.)

La distance entre la valeur estimée et la borne supérieure ou inférieure est appelée marge d'erreur. La taille de la marge d'erreur reflète l'incertitude à propos de la valeur réelle. Plus l'incertitude est grande, plus la marge d'erreur est grande.

Facteurs ayant un impact sur un intervalle de confiance

(Figure montrant des personnes avec des points d'interrogation sur la tête.)

Trois facteurs déterminent la largeur de l'intervalle de confiance : le niveau de confiance, la variabilité au sein de la population et la taille de l'échantillon. Nous allons maintenant voir ces facteurs un par un.

Niveau de confiance

(Figure démontrant une valeur estimée et deux intervalles de confiance, un premier avec un niveau de confiance de 95 % et un second avec un niveau de confiance de 99 %.)

Le niveau de confiance nous indique à quel point nous sommes certains que l'intervalle de confiance contient la vraie valeur de la population. Pour un niveau de confiance de 95 %, nous sommes sûrs à 95 % que l'intervalle de confiance contient la vraie valeur. En d'autres termes, si nous devions répéter l'enquête de nombreuses fois, l'intervalle de confiance contiendrait la vraie valeur 19 fois sur 20. Pour un niveau de confiance de 99 %, nous sommes sûrs à 99 % que l'intervalle de confiance contient la vraie valeur. Notez qu'un niveau de confiance plus élevé nécessite un intervalle de confiance plus long.

Variabilité au sein de la population

(Figure démontrant les notes au test de mathématiques pour deux groupes différents, une classe de mathématiques régulières et une classe de mathématiques enrichies.)

Par variabilité d'une population, nous entendons la différence entre les membres de la population, les uns par rapport aux autres. Dans l'exemple présenté ici, les notes des élèves de la classe de mathématiques enrichies sont moins variables que celles des élèves de la classe de mathématiques régulières. Dans la classe de mathématiques régulières, les notes varient de 54 % à 87 %. Dans la classe de mathématiques enrichies, les notes varient de 86 % à 96 %, soit environ un tiers de la variabilité de la classe de mathématiques régulières. Si la variabilité est élevée dans la population, elle le sera également dans l'échantillon. Si nous avions deux échantillons aléatoires différents de la population, la différence entre les deux estimations différentes aurait également tendance à être plus grande. Ainsi, une plus grande variabilité dans la population entraîne une plus grande variabilité dans les échantillons, ce qui entraîne une plus grande variabilité dans les estimations. Cette plus grande variabilité des estimations se traduit par une plus grande marge d'erreur, de sorte que l'intervalle de confiance est plus large. De même, si la variabilité est plus faible dans la population, elle sera plus faible dans l'échantillon, et l'estimation aura une variabilité plus faible, ce qui entraînera une marge d'erreur plus faible et un intervalle de confiance plus étroit.

Taille de l'échantillon

(Figure démontrant une classe de 100 élèves.)

Un échantillon plus grand produira des estimations plus précises – c'est-à-dire des estimations avec une variabilité plus faible. Par exemple, dans une classe de 100 élèves, la moyenne provenant d'un échantillon de taille 20 aura une variabilité plus faible que la moyenne provenant d'un échantillon de taille 10. La moyenne provenant d'un échantillon de taille 50 aurait une variabilité encore plus faible. Ainsi, plus la taille de l'échantillon est grande, plus la variabilité de l'estimation est faible, plus la marge d'erreur est petite et plus l'intervalle de confiance est étroit. Prenons un exemple...

Exemple – échantillon de taille 10

(Figure démontrant une classe de 100 élèves et un échantillon de 10 élèves, avec une note moyenne estimée à 64 % et la moyenne réelle de la classe à 73 %.)

La note moyenne de la classe est de 73 %. La moyenne pour l'échantillon aléatoire de 10 élèves est de 64 %.

Exemple – échantillon de taille 50

(Figure démontrant une classe de 100 élèves et un échantillon de 50 élèves, avec une note moyenne estimée à 71 % et la moyenne réelle de la classe à 73 %.)

Comme nous le voyons dans cet exemple, avec une taille d'échantillon beaucoup plus grande, la variabilité de l'estimateur est beaucoup plus faible, et il aurait tendance à être beaucoup plus proche de la vraie valeur. L'intervalle de confiance serait alors plus étroit.  

Vérification des connaissances

C'est maintenant votre tour. Comment interpréteriez-vous l'énoncé suivant : Selon une étude récente, les adultes vivant dans une ville donnée pèsent en moyenne 75 kg, avec une marge d'erreur de +/- 10 kg, 9 fois sur 10. Quelle est la valeur estimée? Quel est l'intervalle de confiance? Quel est le niveau de confiance? Prenez un moment pour réfléchir à toute l'information contenue dans cette phrase.

Réponse

Premièrement, nous pouvons conclure que la valeur estimée a été obtenue en utilisant un échantillon de la population. Deuxièmement, nous comprenons que le poids moyen estimé est de 75 kg et que l'intervalle de confiance va de 65 kg à 85 kg. L'intervalle de confiance est assez large, ce qui peut laisser supposer une petite taille d'échantillon, une grande variabilité dans le poids des individus, ou même les deux. Le niveau de confiance est de 90 %, soit 9 fois sur 10. Cela signifie que si un échantillonnage aléatoire devait être répété de nombreuses fois, l'intervalle de confiance contiendrait la vraie valeur 9 fois sur 10. Un niveau de confiance plus élevé, 95 % par exemple, nécessiterait un intervalle de confiance encore plus large.

Principaux points à retenir

Pour résumer ce que nous avons appris aujourd'hui : les intervalles de confiance peuvent aider à comprendre et à mesurer l'incertitude associée aux valeurs estimées à partir d'échantillons ; les données provenant d'échantillons ne fournissent pas des valeurs réelles, mais des valeurs estimées ; la longueur de l'intervalle de confiance peut varier en fonction de la taille de l'échantillon, de la variabilité au sein de la population et du niveau de confiance requis.

(Le mot-symbole « Canada » s'affiche.)

Qu'avez-vous pensé?

S'il vous plaît nous donner vos commentaires afin que nous puissions mieux fournir des produits qui répondent aux besoins de nos utilisateurs.

Principes des données FAIR : Qu'entend-on par FAIR?

Numéro de catalogue : 892000062022002

Date de diffusion : le 24 mai 2022

Cette vidéo expliquera ce que signifie être FAIR en ce qui concerne les données et les métadonnées, et comment chaque pilier de FAIR sert à guider les utilisateurs et les producteurs dans le cheminement des données, afin de leur permettre d'obtenir une valeur maximale à long terme.

Étape du parcours des données
Fondation
Compétence des données
  • Création et utilisation de métadonnées
  • Intendance des données
Audience
Essentiel
Conditions préalables suggérées
s.o.
Durée
9:04
Coût
Gratuit

Voir la vidéo

Principes des données FAIR : Qu'entend-on par FAIR? - Transcription

(Le symbol de Statistics Canada et le mot-symbol du Canada est présent avec le titre suivant: "Recueillir des données : éléments à prendre en considération avant de recueillir des données")

Cette vidéo expliquera ce que signifie être FAIR en ce qui concerne les données et les métadonnées, et comment chaque pilier de FAIR sert à guider les utilisateurs et les producteurs dans le cheminement des données, afin de leur permettre d'obtenir une valeur maximale à long terme.

Dans cette vidéo, vous obtiendrez les réponses aux questions suivantes :

  • Quels sont les principes des données FAIR?
  • Pourquoi les données FAIR sont-elles importantes?

Ce diagramme est une représentation visuelle du cheminement des données, de leur collecte jusqu'au moment d'en raconter l'histoire à d'autres en passant par leur exploration, leur nettoyage, leur description, leur compréhension et leur analyse.

Les principes des données FAIR sont pertinents à chaque étape du cheminement des données.

Les données FAIR sont des données qui sont : faciles à trouver, c'est-à-dire que des identificateurs et des métadonnées uniques sont utilisés pour aider à repérer les données rapidement et efficacement.

Cela signifie également que les données sont accessibles, qu'elles sont disponibles en fonction des autorisations pertinentes et que les métadonnées sont librement accessibles et peuvent être consultées de manière normalisée.

Les données FAIR sont interopérables, c'est-à-dire que grâce à des normes, les données lisibles par machine sont mises en commun et produisent des résultats utilisables dans un format lisible et utile. Tout cela pour s'assurer que les données sont réutilisables.

Les métadonnées existent pour décrire la source, l'origine et la destination des données et leurs utilisations d'une manière normalisée, permettant la réutilisation utile des données au fil du temps et entre les disciplines. Expliquons cela un peu plus en détail...

L'objectif ultime des principes des données FAIR est leur utilisation en tant qu'ensemble de lignes directrices pour toute personne souhaitant améliorer la réutilisation de ses données. Pour ce faire, il faut s'assurer que les données sont faciles à trouver, accessibles, interopérables et réutilisables.

Les données et les métadonnées qui comprennent des identificateurs uniques nous aident à rechercher des catalogues de données pour trouver des renseignements. Par exemple, si vous tapez simplement « météo actuelle à Whitehorse » dans un moteur de recherche sur Internet, vous obtiendrez de multiples URL.

Une fois que vous avez trouvé les données souhaitées grâce à cet identificateur unique, l'URL qui propose de vous montrer la météo à Whitehorse dans le cas qui nous occupe, vous devez y accéder. Parfois, les sources sont librement accessibles et d'autres fois, lorsque vous cliquez sur un lien, il se peut que l'on vous demande les autorisations pertinentes, telles qu'un nom d'utilisateur et un mot de passe. Si vous ne disposez pas des autorisations pertinentes, il devrait y avoir de l'information ou des métadonnées librement accessibles pour vous expliquer le contenu des données et la façon d'y accéder.

Ces URL, ou liens de pages Web, sont chacun constitués d'une série d'identificateurs uniques qui ont été enregistrés dans le catalogue de données du moteur de recherche.

Par conséquent, lorsque vous cliquez dessus, ces URL vous amènent là où il faut pour trouver les renseignements que vous recherchez.

Une fois que vous avez trouvé les données souhaitées grâce à cet identificateur unique, l'URL qui propose de vous montrer la météo à Whitehorse dans le cas qui nous occupe, vous devez y accéder.

Parfois, les sources sont librement accessibles et d'autres fois, lorsque vous cliquez sur un lien, il se peut que l'on vous demande les autorisations pertinentes, telles qu'un nom d'utilisateur et un mot de passe.

Si vous ne disposez pas des autorisations pertinentes, il devrait y avoir de l'information ou des métadonnées librement accessibles pour vous expliquer le contenu des données et la façon d'y accéder.

Une fois que vous aurez accès aux données, dans ce cas-ci, la météo actuelle à Whitehorse, vous pourriez vouloir savoir si la météo d'aujourd'hui est comparable à celle des années précédentes, ou s'il fait actuellement plus froid ou plus chaud que la moyenne.

Pour cela, vous pourriez vouloir accéder à un fichier qui présente des données historiques. La façon dont ce fichier, situé au point A, est formaté, doit être compris et lisible afin d'être utilisé par le point B, votre ordinateur personnel. Cela nécessite la mise en commun et l'interprétation de renseignements lisibles par machine.

Les renseignements lisibles par machine comprennent l'utilisation des éléments normalisés suivants :

  • vocabulaires, pour fournir un moyen cohérent de décrire les données, comme les noms géographiques ou les codes numériques;
  • formats et applications (HTML, CSV, JSON entre autres);
  • API (interfaces de programmation d'applications), qui permettent aux logiciels de communiquer des données les uns avec les autres de manière libre et ouverte.

Pour vous sentir à l'aise de réutiliser des données, vous devez en connaître l'origine, c'est-à-dire savoir d'où elles viennent, par où elles sont passées et comment elles ont été utilisées dans le passé. C'est ce qu'on appelle la provenance.

La provenance est un renseignement sur la source des données (il peut y en avoir plusieurs) en fonction de l'étape à laquelle vous êtes rendus au sein d'un processus particulier.

Par exemple, si vous êtes chargés d'une étape du processus, la provenance pourrait être la liste de toutes les personnes ou machines qui ont manipulé les données avant vous.

Ensuite, l'historique répertorie toutes les transformations qui ont eu lieu tout au long de ces processus, comme les enregistrements qui ont été modifiés et de quelle manière, les variables qui ont été renommées, etc. Ensemble, la provenance et l'historique permettent de comprendre comment les données en sont arrivées à leur forme actuelle.

Les riches descriptions de la provenance et de l'historique saisies dans les métadonnées permettent :

De connaître la provenance des données et les méthodes utilisées pour les produire.

De connaître la qualité du produit final ou la provenance de ses sources (p. ex. la pertinence, l'exhaustivité, l'exactitude, la réputation et l'intégrité).

Ensemble, la provenance et l'historique permettent d'assurer une traçabilité complète de l'endroit où les données ont été hébergées et des mesures qui y ont été appliquées au cours de leur vie, ce qui permet de les réutiliser plus facilement et de façon plus sécuritaire.

Donc, revenons à notre exemple de données météorologiques historiques pour Whitehorse. D'abord, vous avez trouvé les données, les avez consultées et les avez utilisées sur l'appareil de votre choix.

Les descriptions riches des données, qui comprennent des renseignements sur la façon dont les données ont été transformées et toute licence d'utilisation des données, vous fournissent désormais les renseignements nécessaires pour combiner ces données avec d'autres données afin de les réutiliser en fonction de vos besoins.

Cela signifie qu'après avoir accédé aux données historiques d'autres villes couvrant une certaine période, vous pouvez classer Whitehorse et la comparer avec un ensemble d'autres villes, à savoir si les températures sont plus froides ou plus chaudes que la moyenne cette année.

Maintenant que la vidéo est presque terminée, il est temps de vérifier vos connaissances! Qu'avez-vous retenu à propos des données FAIR? Je vais lire la question à haute voix. Ensuite, mettez la vidéo en pause pendant que vous effectuez votre sélection.

Les API (interfaces de programmation d'applications) qui permettent aux logiciels de communiquer des données les uns avec les autres de manière libre et ouverte sont un exemple de quel principe des données FAIR...

  • Facile à trouver
  • Accessibles
  • Interopérables
  • Réutilisables

La bonne réponse est 3 : l'interopérabilité. Les API sont un exemple d'interopérabilité dans la mesure où elles facilitent la mise en commun et l'interprétation de renseignements lisibles par machine d'un point A à un point B.

Les principes des données FAIR garantissent que les données sont :

  • Facile à trouver
  • Accessibles
  • Interopérables
  • Réutilisables

Les principes des données FAIR sont importants, car ils peuvent servir de ligne directrice à quiconque souhaite améliorer la réutilisation de ses données ou développer un nouveau produit de données réutilisables.

(Le mot-symbole « Canada » s'affiche.)

Qu'avez-vous pensé?

S'il vous plaît nous donner vos commentaires afin que nous puissions mieux fournir des produits qui répondent aux besoins de nos utilisateurs.

L'éthique des données : une introduction

Numéro de catalogue : 892000062022001

Date de diffusion : le 24 mai 2022

Dans cette vidéo, nous vous exposerons en quoi consiste l'éthique des données, nous fournirons des explications sur son importance, et nous aborderons les six principes directeurs de l'éthique des données qui sont mis en œuvre par Statistique Canada tout au long du cheminement des données.

Étape du parcours des données
Fondation
Compétence des données
  • Intendance des données
  • Sécurité des données et gouvernance
Audience
Essentiel
Conditions préalables suggérées
s.o.
Durée
13:05
Coût
Gratuit

Voir la vidéo

L'éthique des données : une introduction - Transcription

(Le symbole et le mot-symbole de Statistique Canada apparaissent sur l'écran : « L'éthique des données : Une introduction ».)

Diapositive 0 : Éthique des données : Introduction

La collecte, l'exploration, l'analyse et l'interprétation des données sont des étapes essentielles du processus permettant de produire des renseignements qui sont utiles pour la société, l'économie et l'environnement. Pour mener à bien ces différentes étapes, il faut respecter les règles d'éthique des données, de manière à assurer l'utilisation appropriée des données.

Diapositive 1 : Objectifs d'apprentissage

(Texte à l'écran : À la fin de cette vidéo, vous devriez avoir une meilleure connaissance des points suivants :

  • Qu'est-ce que l'on entend par « éthique des données »?
  • Pourquoi l'éthique des données est-elle importante?
  • Comment Statistique Canada met-il en œuvre l'éthique des données tout au long du cheminement des données?

Dans cette vidéo, nous vous exposerons en quoi consiste l'éthique des données, nous fournirons des explications sur son importance, et nous aborderons les six principes directeurs de l'éthique des données qui sont mis en œuvre par Statistique Canada tout au long du cheminement des données.

Diapositive 2 : Étapes du cheminement des données

(Texte à l'écran : Étapes du cheminement des données est appuyé par une base d'intendance, de métadonnées, de normes et de qualité)

(Diagramme du Cheminement des données : Étape 1 - définir, trouver, recueillir; Étape 2 - explorer, nettoyer, décrire; Étape 3 - analyser, modéliser; Étape 4 - raconter l'histoire. Le cheminement des données est appuyé par une base d'intendance, de métadonnées, de normes et de qualité.)

Ce diagramme est une représentation visuelle du cheminement des données, de leur collecte jusqu'au moment d'en raconter l'histoire à d'autres en passant par leur exploration, leur nettoyage, leur description, leur compréhension et leur analyse.

Diapositive 3 : Étapes du cheminement des données (Partie 2)

L'éthique des données s'applique à chacune des étapes du cheminement des données.

Diapositive 4 : Qu'est-ce au juste que l'éthique des données?

Qu'est-ce que l'éthique des données? L'éthique des données permet aux utilisateurs d'apporter des réponses aux questions entourant l'utilisation appropriée des données à toutes les étapes de leur cheminement.

Ce domaine d'études a pour objet de s'assurer que les données recueillies servent toujours un but précis, et que chaque nouveau projet ou chaque acquisition de données vise à servir l'intérêt de la société et des personnes.

Diapositive 5 : Il existe de nombreuses façons de recueillir des données…

En parallèle avec la prolifération des données associées à l'ère numérique, il y a eu une évolution des approches de collecte de données. Outre la méthode plus traditionnelle fondée sur des enquêtes, différentes autres méthodes de collecte sont utilisées, par exemple :

  • les données d'observation de la Terre;
  • les données de lecteurs optiques;
  • les données administratives;
  • et le moissonnage du Web.

Diapositive 6 : … et de transformer les données en information

Ces données servent ensuite à créer des renseignements utiles, par exemple des statistiques, et à former des algorithmes dans les domaines de l'intelligence artificielle et de l'apprentissage automatique. Mais plus il y a de données, plus il y a de responsabilités…

Diapositive 7 : Responsabilité de relever des défis d'ordre éthique, par exemple :

À partir du moment où l'on décide d'adopter de nouvelles méthodes de collecte de données, comme le recours à des sources de données administratives, le moissonnage du Web, les applications et la collecte par approche participative, il faut garder à l'esprit différents enjeux éthiques persistants, par exemple :

  • Protéger la vie privée et la confidentialité
  • Assurer un juste équilibre entre les intrusions dans la vie privée et l'intérêt public
  • Être conscient des répercussions néfastes pouvant découler de l'utilisation de données comportant un biais
  • Assurer la qualité des données pour éviter toute désinformation.

Diapositive 8 : Les six principes directeurs de l'éthique des données à Statistique Canada

Il existe de nombreuses façons de relever ces défis d'ordre éthique; à Statistique Canada, nous nous conformons aux six principes directeurs suivants :

  • Les données sont utilisées à des fins qui bénéficient à la population canadienne
  • Les données sont utilisées de façon sécuritaire et confidentielle
  • Les acquisitions et les méthodes de traitement des données sont transparentes et responsables
  • Les acquisitions et les méthodes de traitement des données sont dignes de confiance et durables
  • Les données proprement dites sont de grande qualité
  • Tout renseignement tiré des données est présenté de manière équitable et ne cause aucun préjudice

Examinons ces principes plus en détail.

Diapositive 9 : Avantages pour la société

L'utilisation des données à des fins qui bénéficient à la population canadienne signifie que les activités statistiques doivent permettre aux gouvernements, aux entreprises et aux collectivités de prendre des décisions éclairées et de gérer leurs ressources efficacement, ce qui aura en principe des retombées positives sur le quotidien des Canadiens.

Diapositive 10 : Avantages pour la société – Exemple

Un recensement de la population est un élément fondamental de l'infrastructure statistique de tout pays. Au Canada, le recensement est actuellement la seule source de données offrant des comptes de population et de logements de grande qualité, fondés sur des normes communes et se situant à des niveaux de géographie détaillés, ainsi que des renseignements cohérents et comparables au sujet de divers groupes de population.

Diapositive 11 : Protection de la vie privée et sécurité

(Texte à l'écran :

Il est important de trouver un équilibre entre le respect de la vie privée et la production de renseignements

  • Il faut veiller à ce que les activités statistiques n'empiètent pas indûment sur la vie des Canadiens
  • Toute intrusion jugée nécessaire doit être justifiée
  • Il importe aussi de tenir compte des aspects pratiques entourant la sécurité ainsi que des répercussions que les atteintes potentielles à la sécurité pourraient avoir sur le bien-être des Canadiens)

Lorsque les activités statistiques exigent l'utilisation de renseignements personnels, il faut tenir compte à la fois de la protection des renseignements personnels et de la sécurité. Il faut toujours prendre des mesures appropriées afin de protéger les renseignements personnels tout en veillant à ce que les données puissent servir à produire des renseignements significatifs.

D'abord, il faut assurer un juste équilibre entre le respect de la vie privée et la production de renseignements. Lorsqu'un projet donne lieu à une intrusion dans la vie privée des Canadiens, il faut expliquer en quoi les données en question sont suffisamment importantes pour justifier une telle intrusion, et indiquer comment l'utilisation de ces données procurera des avantages. En d'autres termes, nous devons veiller à ce que nos activités statistiques n'empiètent pas indûment sur la vie des Canadiens, et nous devons toujours justifier toute intrusion que nous jugeons nécessaire.

De plus, lorsque nous concevons une approche de collecte de données, nous avons l'obligation morale de protéger la confidentialité et les données des Canadiens. L'éthique des données consiste entre autres à s'assurer que les projets prennent en compte les menaces éventuelles pour la sécurité, et qu'ils ont été conçus en conséquence.

Diapositive 12 : Protection de la vie privée et sécurité – Exemple

(Texte à l'écran : Étude sur l'orientation sexuelle des personnes occupant des postes de gestion.

Si nous menons une enquête sur ce sujet, les questions liées au genre, à l'état matrimonial et au sexe seront pertinentes, même si elles ont un caractère indiscret.

Par contre, des questions sur le salaire, les antécédents criminels et l'état de santé ont elles aussi un caractère indiscret, et elles ne sont pas directement liées au projet, donc elles devraient être justifiées.

Des mesures de TI et de gestion de l'information strictes doivent être prises à toutes les étapes du traitement des données, car il s'agit de données personnelles qui présentent un caractère délicat.)

Imaginons que nous voulons brosser un meilleur portrait de l'orientation sexuelle des personnes occupant des postes de gestion. Si nous menons une enquête, les questions liées au genre, à l'état matrimonial et au sexe seront pertinentes, même si elles ont un caractère indiscret. Si l'on posait des questions sur le salaire, l'âge et la nationalité, il faudrait justifier en quoi ces variables sont nécessaires.

Pour éviter toute atteinte à la confidentialité de renseignements personnels, des mesures de TI et de gestion de l'information strictes doivent être prises à toutes les étapes du traitement des données, de la collecte jusqu'à l'élimination, en passant par la conservation, l'utilisation et la divulgation, afin de protéger la confidentialité des renseignements de cette population vulnérable et de préserver l'intégrité du projet.

Diapositive 13 : Transparence et responsabilisation

Les activités statistiques entreprises dans l'intérêt de la société doivent être transparentes en ce qui touche la provenance des données, leur utilisation et les mesures prises pour assurer la confidentialité.

Diapositive 14 : Transparence et responsabilisation – Exemple

Par exemple, le Centre de confiance de Statistique Canada présente une liste de toutes les enquêtes et de tous les programmes statistiques actuels, en précisant leurs méthodologies, leurs objectifs et les sources de données. Il est important de fournir ces renseignements sur les projets, non seulement pour que les Canadiens puissent connaître la façon dont les activités statistiques sont menées aux fins de déterminer si un projet sert leurs intérêts, mais aussi pour que l'organisme rende compte de ses activités.

Diapositive 15 : Qualité des données

Le principe relatif à la qualité des données signifie que les données utilisées pour produire des renseignements statistiques doivent être aussi représentatives et aussi exactes que possible. Pour se conformer à cette attente, il faut s'assurer qu'il n'y a aucun biais ni aucune erreur pouvant remettre en question les avantages d'un projet ou induire en erreur les utilisateurs des données.

Diapositive 16 : Qualité des données – Exemple

(Texte à l'écran : Un faible taux de réponse peut donner lieu à des estimations biaisées ou à des échantillons de trop petite taille pour combler les besoins en information.

Statistique Canada décide de commencer à utiliser d'autres sources de données.

Si les sources sont biaisées, elles peuvent mener à des mesures et à des politiques mal étayées.)

Lorsqu'on mène une enquête, un faible taux de réponse peut donner lieu à des estimations biaisées ou à des échantillons de trop petite taille pour combler les besoins en information. Prenons l'exemple de données sur l'emploi chez les personnes handicapées. Si le taux de réponse à l'enquête a une incidence sur la qualité des estimations, Statistique Canada pourrait décider de commencer à utiliser des données d'autres sources, comme des données administratives obtenues auprès d'associations sectorielles ou de syndicats.

Or, si ces nouvelles sources sont biaisées, les renseignements qui en seront tirés ne seront pas fiables; cela peut conduire à des mesures et à des politiques mal étayées, ce qui risque de causer plus de tort que de bien.

Diapositive 17 : Équité et absence de préjudice

Dans le cadre d'activités statistiques, il est nécessaire de tenir compte de tous les risques qu'une activité statistique peut soulever pour le bien-être d'individus ou de groupes particuliers.

Diapositive 18 : Équité et absence de préjudice – Exemple

En cas d'acquisition et de couplage d'une grande quantité de données, des descriptions détaillées de sous-populations de la société pourraient être disponibles à des fins d'analyse. Toutefois, la présentation de grappes de données détaillées peut parfois avoir un effet amplificateur sur les observations au niveau de géographie le plus bas. Bien que cela puisse à première vue sembler sans conséquence, il est important de se rappeler que ces grappes de données peuvent révéler des renseignements sur des aspects comme l'appartenance ethnique et le statut socioéconomique. Si l'on place une sous-population sous un microscope, cela peut soulever des questions d'ordre éthique. Par exemple, les études sur la criminalité doivent être présentées avec prudence afin de ne pas renforcer les stéréotypes, et il faut aussi faire preuve de prudence lorsque l'on communique les résultats afin de s'assurer qu'ils sont informatifs et qu'ils ne peuvent être perçus comme étant un acte d'accusation à l'endroit d'un groupe de population particulier.

Diapositive 19 : Confiance et viabilité

Pour que l'on puisse conserver la confiance du public, l'utilisation des données dans l'intérêt de la société doit absolument être assortie de pratiques exemplaires, par exemple assurer la confidentialité de l'information, protéger les renseignements personnels, produire des données représentatives, et rendre compte des activités menées. En incorporant ces éléments à notre mandat, nous pouvons garantir que nos activités statistiques demeurent socialement acceptables aux yeux du public. Si nous jouissons d'une acceptabilité sociale adéquate, tout partenariat que nous concluons et toute approche que nous adoptons offrent l'occasion de démontrer que nous respectons notre mandat et que nous aidons l'organisme à promouvoir ses objectifs et à maintenir la confiance du public à long terme.

Diapositive 20 : Confiance et viabilité – Exemple

Pour bien réaliser toute l'importance de la confiance, imaginez que, dans le but de recueillir de l'information sur la consommation de cannabis à des fins récréatives par les jeunes Canadiens, nous avons recours à une approche de collecte par approche participative et volontaire, et que cette collecte a lieu avant la légalisation du cannabis. Les répondants fourniront des données exactes et fiables uniquement s'ils font confiance à l'institution responsable de la garde et de la protection de la confidentialité de leurs réponses. Dans ce genre de situation, les répondants doivent avoir confiance dans le fait que leurs données ne seront communiquées à personne, qu'il s'agisse de leurs pairs, de leurs parents ou même des autorités.

Diapositive 21 : Résumé des principaux points

(Figure 1 démontrant les 6 principes directeurs soit l'avantages pour la population canadienne, la confiance et viabilité, la protection de la vie privée et sécurité, la qualité des données, la transparence et responsabilisation et l'équité et absence de préjudice.)

En résumé, l'éthique des données est le domaine d'études qui traite des questions entourant l'utilisation appropriée des données.

Les progrès réalisés au chapitre des techniques de collecte de données soulèvent des défis éthiques liés à l'accès aux données et à leur utilisation.

À Statistique Canada, nous nous conformons aux six principes directeurs suivants :

  • Avantages pour la population canadienne
  • Protection des renseignements personnels et sécurité
  • Transparence et responsabilisation
  • Confiance et viabilité
  • Qualité des données
  • Équité et absence de préjudice

(Le mot-symbole « Canada » s'affiche.)

Qu'avez-vous pensé?

S'il vous plaît nous donner vos commentaires afin que nous puissions mieux fournir des produits qui répondent aux besoins de nos utilisateurs.

Visualisation des données : une introduction

Numéro de catalogue : 892000062020014

Date de diffusion : le 23 septembre 2020 Mise à jour : le 21 décembre 2022

Cette vidéo traite des compétences en matière de visualisation des données. À la fin de cette vidéo, vous devriez avoir une compréhension plus approfondie de ce qu'est la visualisation des données et de la façon dont elle peut être utilisée pour présenter les données d'une manière intéressante et esthétique.

Nous vous indiquerons quand elle devrait être utilisée et vous donnerons des exemples des différents types de techniques de visualisation des données qui existent.

Étape du parcours des données
Raconter l'histoire
Compétence des données
  • Raconter une histoire
  • Visualisation des données
Audience
Essentiel
Conditions préalables suggérées
s.o.
Durée
11:42
Coût
Gratuit

Voir la vidéo

Visualisation des données : une introduction - Transcription

(Le symbole et le mots-symbole de Statistique Canada apparaissent sur l'écran : « Visualisation des données : une introduction »)

Visualisation des données

Bienvenue à la première partie d'une série sur la visualisation des données. Cette vidéo donne un aperçu de la visualisation des données et de la façon de l'utiliser pour raconter votre histoire.

Objectifs d'apprentissage

Cette vidéo traite des compétences en matière de visualisation des données. À la fin de cette vidéo, vous devriez avoir une compréhension plus approfondie de ce qu'est la visualisation des données et de la façon dont elle peut être utilisée pour présenter les données d'une manière intéressante et esthétique.

Nous vous indiquerons quand elle devrait être utilisée et vous donnerons des exemples des différents types de techniques de visualisation des données qui existent.

Étapes du cheminement des données

Ce diagramme est une représentation visuelle du cheminement des données, de la collecte des données à l'exploration, au nettoyage, à la description et à la compréhension des données, à l'analyse des données et, enfin, à la communication avec les autres de l'histoire que racontent les données.

Étape 4 : Raconter l'histoire

La visualisation des données peut se produire à différentes étapes du cheminement des données, en fonction de l'utilisation que vous en faites. Dans cette vidéo, nous nous concentrerons principalement sur la façon de présenter les données d'une manière qui aide à raconter l'histoire.

Visualisation des données

(Diagramme du Cheminement des données : Étape 1 - définir, chercher, recueillir; Étape 2 - explorer, nettoyer, décrire; Étape 3 - analyser, modéliser; Étape 4 - Raconter l'histoire. Le cheminement des données est supporté par une base d'intendance, de métadonnées, de normes et qualité).

La visualisation des données est la représentation graphique de l'information et des données.

Il s'agit d'une combinaison entre l'art et la science, car elle utilise des outils comme des tableaux, des graphiques et des cartes pour souligner des tendances et des modèles qui pourraient être cachés dans un grand ensemble de données et les rendre beaucoup plus faciles à comprendre.

Pourquoi utiliser la visualisation des données?

Mais comment la visualisation des données facilite-t-elle la compréhension des tendances et des modèles?

La vision est un élément très important de notre expérience du monde. C'est peut-être grâce à elle que nous avons toujours survécu, que nous trouvons de la nourriture, que nous évitons des menaces, que nous créons de l'art qui préserve notre culture et notre histoire.

Puisque le cerveau absorbe et traite l'information visuelle plus rapidement que tout autre stimulus, la présentation de l'information au moyen de graphiques peut être incroyablement efficace.

Comme la technologie évolue, il est logique que la façon dont nous présentons l'information que nous essayons de partager avec le monde évolue elle aussi.

Présentation des données

(Une série d'image où, débutant de la gauche, une tarte aux pommes, tarte aux cerises, tarte aux bleuets, tarte d'une autre saveur et une tarte avec le visage d'émojie qui louche avec la langue sortie).

Par exemple, pensez à la question suivante: quelle est la saveur de tarte la plus populaire? Si vous vouliez vraiment connaître la saveur de tarte la plus populaire dans votre ville natale, vous pourriez décider de mener un sondage. Dans le cadre de ce sondage, On demanderait à tous les habitants de la ville quelle saveur de tarte ils préfèrent: pommes? Cerises? Bleuets? Une autre saveur? Et enfin, une option pour les personnes qui n'aiment tout simplement pas la tarte. Une fois que vous avez recueilli vos données, il y a plusieurs façons de communiquer les résultats.

Option 1 : Texte

La première option est le texte. Vous pourriez envisager de rédiger un rapport qui décrit les chiffres et qui se lirait à peu près comme suit: « Parmi les 100 personnes interrogées, 40 préfèrent la tarte aux pommes, 30 la tarte aux Bleuets et 20 la tarte aux cerises. De plus, 5 personnes ont choisi une saveur autre que celles qui figuraient sur la liste et 5 ont dit ne pas aimer la tarte. »

Option 2 : Tableau

(Image d’un tableau où la colonne de gauche contient les différentes saveurs de tarte et où la colonne de droite contient le nombre de répondants de chaque saveur respective : pommes = 40, bleuets = 30, cerises = 20, autre = 5, je n’aime pas la tarte = 5, total = 100).

Dans cette situation, où nous essayons simplement de découvrir la saveur de tarte la plus populaire, nous pourrions décider que la lecture d'une analyse complète des résultats n'est pas nécessaire. Il pourrait donc être préférable de privilégier l'option de recevoir exactement les mêmes résultats dans un tableau. Quand on lit un tableau, on se concentre sur les chiffres. Ici, on voit bien que la plupart des gens préfèrent la tarte aux pommes, sans avoir à prendre le temps de lire beaucoup de texte. Donc, il est bon de noter que lorsque vous essayez de comparer plus de 2 nombres, vous voudrez probablement envisager de présenter vos données d'une manière plus visuelle que textuelle.

Option 3 : Visualisation

(Une série d'image avec 4 tartes aux pommes, 3 tartes aux bleuets, 2 tartes aux cerises, la moitié d'une tarte pour ceux qui aime une autre saveur et l'autre moitié pour ceux qui n'aime pas la tarte). 

Une 3e façon de présenter les résultats de notre sondage sur les saveurs de tarte est de ne pas utiliser beaucoup de mots ou de chiffres. La 3e option est la visualisation des données. À partir de cette image, on constate immédiatement que la tarte aux pommes est la plus populaire.

Types de visualisation des données

(Série d'images simplifiés des différents types de visualisation des données : (Gauche) Diagrammes, Graphiques, Cartes, Tableaux, Graphiques figuratif, Infographies, Tableaux de bord (Droite)).

Il existe de nombreuses façons de présenter visuellement les données, comme des diagrammes, des graphiques, des cartes, des tableaux, des graphiques figuratifs, des infographies et des tableaux de bord. Dans les prochaines diapositives, nous verrons les éléments de chacune de ces options.

Nuage de points

(Texte à l’écran : Démontrer la relation entre deux valeurs).

(Image d'un nuage de point avec le titre suivant : « Revenu total des ventes de crème glacée, 2019 ($CAN) ». L'axe verticale(y) représente les revenus ($) et l’axe horizontale(x) représente la température (Celsius)).

Un nuage de points est excellent pour illustrer la relation entre 2 choses. Dans ce diagramme, on peut manifestement voir la relation entre la température, sur l'axe horizontal, et les ventes de crème glacée, sur l'axe vertical. On peut constater que les revenus liés à la vente de crème glacée augmentent, avec l'augmentation de la température.

Graphique linéaire

(Texte à l'écran : Montrer les tendances au fil du temps).

(Image d'un graphique linéaire avec le titre suivant : « Le seuil officiel de pauvreté au Canada ». L'axe verticale(y) et horizontale(x) représentent la proportion de la population (%) et l'année respectivement).

Un graphique linéaire est une bonne façon de montrer les fluctuations d'une chose au fil du temps. Celui-ci montré comment le taux de pauvreté au Canada a diminué au cours des dernières années, passant de 12,1% en 2015 à 8,7% en 2019.

Graphique à barres

(Texte à l'écran : Faire une comparaison entre plusieurs choses).

(Image d'un graphique à barres avec le titre suivant : « La consommation de cannabis au cours des trois derniers mois selon l'âge, Canada - Quatrième trimestre de 2019 ». L'axe verticale (y) représente la proportion de la population de consommateurs de cannabis (%) et l’axe horizontale (x) représente le groupe d'âge. De la bande à gauche à la bande à droite, elles représentent les groupes d'âges : « 15 à 24 », « 25 à 34 », « 35 à 44 », « 45 à 54 », « 55 à 64 » et « 65 et plus »).

Un graphique à barres est préférable lorsque vous voulez comparer différents groupes de valeurs. On compare ici la consommation de cannabis chez les Canadiens selon la tranche d'âge. Le graphique montre clairement que la consommation de cannabis est plus élevée chez les plus jeunes que chez les plus âgés.

Graphique circulaire

(Texte à l'écran : Montrer la composition d'un tout).

(Image d'un graphique circulaire avec le titre suivant : « Six provinces ont cultivé des raisins « vinifera et hybride français » pour la vinification en 2018 – 69% de la production totale provient de l’Ontario ». Le graphique circulaire est composé de 3 tranches asymétriques).

Un graphique circulaire est l'outil idéal pour montrer la composition d'un tout, ou la répartition d'une chose. Ici, on constate qu'en 2018, l'Ontario a produit plus de raisins destinés à la vinification que toutes les autres provinces réunies.

Cartes

(Texte à l'écran : Placer les données dans un contexte géographique).

(Image de la carte du Canada où chaque province possèdent un gradient de bleu différent représentant le taux de chômage où le bleu foncé représente un taux élevé. Les régions noires n'ont pas de collecte de données).

Voici un exemple de carte utilisée aux fins de la visualisation de données. Elle montre comment les taux de postes vacants diffèrent d'une province à l'autre. Le taux de postes vacants pour chaque province au Canada est indiqué sur la carte à l'aide de dégradé de couleurs.

Tableaux

(Texte à l'écran : Tableaux : Utilisés pour montrer plusieurs catégories et fournir plus de détails et de précision que de nombreuses autres méthodes de visualisation des données).

(Image d'un tableau où sur la colonne de gauche est la liste de groupes d'âge des enfants. La colonne du milieu et la colonne de droite représentent « Toutes les familles avec des enfants » et « Total des enfants dans toutes  les familles » respectivement. Ces deux dernières colonnes possèdent des sous-colonnes représentant les années 2015, 2016 et 2017).

Les tableaux sont utilisés pour montrer plusieurs catégories et fournissent plus de détails et de précision que de nombreuses autres méthodes de visualisation des données. Dans ce tableau, on voit le nombre de familles avec enfants par rapport au nombre total d'enfants dans l'ensemble des familles, pour différentes tranches d'âge d'enfants.

Graphiques figuratifs

(Texte à l'écran : Graphiques figuratifs : Simples, mais possibilité d'interprétation immédiate).

((Même images que l'exemple des tartes) Une série d'image avec 4 tartes aux pommes, 3 tartes aux bleuets, 2 tartes aux cerises, la moitié d'une tarte pour ceux qui aime une autre saveur et l'autre moitié pour ceux qui n'aime pas la tarte).

La méthode de visualisation des données utilisée dans l'exemple des saveurs de tarte est un graphique figuratif. Un graphique figuratif est la représentation de données à l'aide d'images. C'est l'une des façons les plus simples de représenter les données statistiques. La popularité de différentes saveurs de tarte est représentée par le nombre de tartes. Dans ce graphique figuratif, chaque tarte représente 10 individus. Bien que le niveau de précision d'un graphique figuratif soit très faible, notre cerveau en interprète instantanément le message.

Infographies

(Texte à l'écran : Infographies : Utilisées pour raconter une histoire de données complète).

(Une image d’une infographie intitulée : « Histoire de famille - Partage des tâches domestiques - qui fait quoi? » L'infographie contient des données et des conclusions sur le sujet en question).

Une infographie est un regroupement de plusieurs visualisations de données visant à raconter une histoire de données plus complète. De façon générale, un infographie décrit l'état de quelque chose à un moment précis, comme une affiche. Dans cet exemple, plusieurs points de données sont regroupés pour raconter une histoire au sujet des membres de la famille qui font les corvées. À partir de cette infographie, nous apprenons que certaines corvées sont réparties également entre les hommes et les femmes, comme la vaisselle, le magasinage et l'organisation de la vie sociale, alors que la lessive et la préparation des repas sont plus souvent faites chez les femmes et les tâches extérieures par des hommes. Enfin, l'infographie révèle que la répartition des tâches dépend des personnes qui font partie de la population active.

Tableaux de bord

(Texte à l'écran : Tableaux de bord : Servent à éclairer les décisions d'affaires et sont mis à jour à intervalles réguliers.)

(Image d’un tableau de bord contenant des tableaux, des graphiques et des diagrammes pour afficher plusieurs faits liés aux ressources humaines).

Un tableau de bord est un regroupement de plusieurs visualisations de données qui est souvent utilisé pour éclairer les décisions d'affaires. Les tableaux de bord sont habituellement mis à jour régulièrement et montrent les changements au fil du temps. La couleur, la taille et la position des graphiques individuels sont utilisées de façon stratégique pour attirer l'attention sur différents aspects. Ce tableau de bord, par exemple, utilise des tableaux et des graphiques pour afficher l'information nécessaires à la gestion des ressources humaines.

Comment choisir la bonne visualisation

La bonne visualisation dépend de plusieurs facteurs, de quel type de données disposez-vous? Y a-t-il des relations entre les données ou changent-elles au fil du temps? Faites-vous des comparaisons ou montrez-vous la composition de quelque chose? Qui est votre public cible? Quelle histoire voulez-vous lui raconter? Les différences entre les régions géographiques sont-elles importantes pour lui? Quel est le degré de précision souhaité ou exigé? Votre public prend-il des décisions d'affaires en fonction de l'information que vous partagez, ou s'agit-il simplement de l'informer? Sur les diapositives précédentes, vous avez vu différents types de visualisations des données et l'utilisation possible de chacune.

Résumé des principaux points

Dans cette vidéo, vous avez appris que la visualisation des données est la représentation graphique de l'information et des données.

Il est vrai qu'une image vaut 1000 mots, mais assurez-vous de choisir la bonne image pour représenter fidèlement vos données afin de bien faire passer votre message. Surveillez les autres vidéos de cette série présentant les pratiques exemplaires en matière de visualisation des données.

(Le mot-symbole « Canada » s'affiche).

Qu'avez-vous pensé?

S'il vous plaît nous donner vos commentaires afin que nous puissions mieux fournir des produits qui répondent aux besoins de nos utilisateurs.

Intendance des données : introduction

Numéro de catalogue : 892000062020013

Date de diffusion : le 23 septembre 2020 Mise à jour : le 2 november 2021

À la fin de cette vidéo, vous devriez comprendre comment déterminer les données dont vous avez besoin, où trouver les données, comment recueillir les données (qu'elles proviennent de sources existantes ou d'une enquête à mener) et comment assurer la sécurité des données.

Prenez note que le fait de recueillir des données dans le cadre d'une enquête est habituellement appelé la collecte des données.

Étape du parcours des données
Base
Compétence des données
Collecte des données
Audience
Essentiel
Conditions préalables suggérées
s.o.
Durée
10:27
Coût
Gratuit

Voir la vidéo

Intendance des données : introduction - Transcription

(Le symbol de Statistics Canada et le mot-symbol du Canada est présent avec le titre suivant: « Intendance des données : introduction »)

Intendance des données: La gouvernance des données en action

L'intendance des données est souvent décrite comme étant la gouvernance des données en action. Cette vidéo vous présente les aspects fondamentaux relatifs à l'intendance des données.

Objectifs d'apprentissage

Cette vidéo s'adresse aux personnes qui souhaitent acquérir une compréhension de base de l'intendance des données. Aucune connaissance préalable n'est requise. À la fin de cette vidéo, vous pourrez répondre aux questions suivantes. Qu'est-ce que l'intendance des données? Quelle est la différence entre la gouvernance des données et l'intendance des données? Pourquoi l'intendance des données est-elle importante? Quels sont les principaux rôles des intendants des données? Quels sont les résultats attendus d'un programme d'intendance des données?

Étapes de cheminement des données

(Text à l'écran: Étapes du cheminemnt des données est appuyé par une base d'intendance, de métadonnées, de normes et de qualité)

(Diagramme du Cheminement des données: Étape 1 - définir, trouver, recueillir; Étape 2 - explorer, nettoyer, décrire; Étape 3 - analyser, modéliser; Étape 4 - Raconter l'histoire. Le cheminement des données est supporté par une base d'intendance, de métadonnées, de normes et qualité.)

Ce diagramme est une représentation visuelle du cheminement des données, de la collecte à la communication avec les autres, de l'histoire que racontent les données en passant par le nettoyage, l'exploration, la description, la compréhension des données et l'analyse des données, La gouvernance des données et la gouvernance des données exploitables, prenant la forme de principe d'intendance des données couvre toutes les étapes relatives aux cheminements des données, aussi appelé le cycle de vie des données.

Qu'est-ce que l'intendance des données?

Avant d'aborder l'intendance des données, il est important de présenter brièvement la gouvernance des données et d'expliquer le lien existant entre les deux. La gouvernance des données est souvent présentée comme étant l'exercice de la prise de décision et l'exercice de l'autorité en ce qui a trait aux données. Elle englobe les politiques, les directives et les règlements qui concerne les données; La protection des renseignements personnels et la sécurité des données, ainsi que l'affectation des rôles et des responsabilités en vue d'améliorer continuellement la qualité et la gestion des données; L'intendance des données est souvent décrite comme étant la gouvernance de données en action. Elle comprend la gestion et la surveillance des données pour assurer l'adéquation des données à leur utilisation et leur conformité aux politiques, aux directives et aux règlements.

Quelle est la différence entre la gouvernance des données et l'intendance des données? La gouvernance des données

La gouvernance des données stratégiques et comprends: La création d'une structure organisationnelle responsable de la gestion de la prise de décision, de gouvernance; La formation d'une équipe multidisciplinaire et coordonnées d'intendant pour régir les données; La définition des utilisations et de l'objectif des données ainsi que des principes selon, lesquels elles seront traitées; L'élaboration d'un plan visant à communiquer les politiques qui régissent les données; L'attribution des rôles et des responsabilités des personnes qui supervise la gouvernance des données.

Quelle est la différence entre la gouvernance des données et l'intendance des données? l'intendance des données

L'intendance des données est opérationnel et comprend: l'identification des données essentielles et la consignation de leurs valeurs admissibles; La définition de procédures opérationnelles pour satisfaire aux exigences établies par les politiques de l'organisme concernant la création, la collecte, le stockage et l'utilisation ou le refus de l'accès aux données; La consignation des sources de données qui nécessitent l'utilisation d'un système enregistre en leur provenance; La mise en place de seuils ou de niveau acceptable pour la qualité et l'exploitabilité des données de l'organisme; La vérification de la conformité ayant trait à la gestion et aux normes d'interopérabilité des données qui permettent le couplage de données et la transmission des informations entre les systèmes informatiques; L'ajout la gestion des métadonnées qui décrivent les données; La résolution de problèmes relatifs aux données de l'organisation qui surviennent;

Pourquoi l'intendance des données est-elle si importante?

L'augmentation rapide de la quantité de données et de fournisseurs de données est souvent appelée la révolution des données, où l'explosion des données; Cette augmentation du volume et de la variété des données présente de nombreuses occasions pour les organisations de produire davantage de renseignements, notamment sous forme de données, d'information et d'observation; Toutefois, la protection des renseignements personnels et la sécurité des données suscite de plus en plus de préoccupations. Puisque certaines de ces données contiennent des renseignements identificatoires; En raison de l'augmentation du volume et de la variété des données ainsi que de la vitesse à laquelle elles peuvent être créés, les utilisateurs s'attendent à recevoir davantage de données de plus en plus précises, et ce en temps réel ou presque; Il y a un besoin croissant dans plusieurs organisations d'augmenter le partage et l'interopérabilité des données afin de les utiliser à leur plein potentiel. La gestion et intendance approprié des données n'ont jamais été aussi importantes.

Quel est le rôle d'un intendant des données?

Un intendant des données est responsable des données d'une organisation. Il doit connaître leur emplacement tout au long de leur cycle de vie, la mesure de leur qualité et la façon dont elles sont protégés contre les risques connexes. Les intendants des données sont responsables de la définition et de la mise en œuvre de politiques et de procédures de gestion opérationnelle et administrative quotidienne des systèmes et des données. Y compris la réception, le stockage, le traitement et la transmission des données aux systèmes internes et externes.

Tâches des intendants des données

Les tâches principales des intendants des données varient d'une organisation à l'autre, mais la plupart d'entre eux participent directement aux activités suivantes: La gestion du cycle de vie des données. Ceci va de l'obtention à la suppression des données. Ceci inclut les protocoles, les processus et les règles pour le stockage, l'accès, l'archivage et là suppression des données; La protection des données et des renseignements personnels. Ceci comprend l'utilisation de techniques de masquage ou de dépersonnalisation pour protéger les renseignements identificatoires; La qualité des données. Ceci comprend la conformité au cadre de qualité des données pour assurer la satisfaction des besoins des utilisateurs; Les normes d'interopérabilité. Ceci est l'application de normes, de vocabulaire, de taxonomie et déontologie relatifs aux données pour rendre possible la réutilisation et le partage des données; La formation. Ceci permet à tous les membres d'une organisation de connaître le rôle de l'intendant des données; La communication. Ceci comprend la production de rapports sur l'état, de la gestion des données; La mise en œuvre d'un instrument de politique. Ceci consiste à veiller à ce que les données soient conformes à l'ensemble des politiques, des directives et des lignes directrices de l'organisation, et ce, tout au long de leur cycle de vie; La gestion des accès et la sécurité des données. Ceci comprend la conformité aux privilèges et aux protocoles en matière d'accès qui sont fondées sur les rôles et le droit de savoir.

À quoi ressemble une bonne intendance des données?

Lorsqu'elle est réalisée de façon adéquate, l'intendance des données permet de veiller à ce que la gestion globale des données se harmonise parfaitement avec la stratégie intégrée de l'organisation et soutiennent le rendement organisationnel; Une saine intendance des données comprend également des processus opérationnels reproductible et automatisée, ainsi que des rôles et des responsabilités bien établie pour les personnes chargées des données; Elle permet aussi de veiller à ce que les règles opérationnelles soient respectés et que les mesures et les audits soient réalisés pour continuellement améliorer la qualité des données et rendre leur intendance efficace.

Résultats attendus

Voici les résultats attendus d'un programme d'intendance des données: Plus grande confiance dans les renseignements; Meilleure compréhension des données nécessaires à la prise de décisions opérationnelles crucial en raison de l'exactitude des termes et des définitions; Application des pratiques exemplaires et conformité au protocole, aux règles et aux normes, ce qui accroît l'efficacité; Résultat cohérent au sein de l'ensemble des secteurs d'activité et moins de temps consacré à la recherche de donner, à la production de rapport, à la vérification des résultats, aux enquêtes sur les anomalies dans les données et à l'explication des incohérences; Données et renseignements plus cohérent, facile à trouver il a justifié ce qui permet de maintenir la confiance du public.

Objectifs de l'intendance des données

Voici les objectifs de l'intendance des données et d'un programme d'intendance des données: Favoriser une utilisation des données optimale et de haute qualité; Faciliter la recherche de données et l'accessibilité des données; Permettre d'établir des définitions de donner, des normes et des politiques communes aux fins d'interopérabilité; Réduire le temps consacré à la recherche de donner à la vérification de résultats ou au repérage des incohérences; Permettre d'éliminer les doublons au moment de l'obtention et du stockage des données; Favoriser une gouvernance et des stratégies efficaces en matière de données.

Résumé des principaux points

La gouvernance des données est stratégique, qui comprend la création d'une infrastructure permettant de s'occuper des données d'une manière responsable. L'intendance des données est la gouvernance des données en action. C'est-à-dire qu'elle concerne les activités quotidiennes de collecte, de stockage, de traitement et de partage des données. L'intendance des données est importante étant donné que le volume de données que nous utilisons et que nous devons protéger ne cessent de croître.

(Le mot-symbole « Canada » s'affiche.)

Qu'avez-vous pensé?

S'il vous plaît nous donner vos commentaires afin que nous puissions mieux fournir des produits qui répondent aux besoins de nos utilisateurs.