Legacy Content

Code de niveau de production dans le domaine de la science des données

Par David Chiumera, Statistique Canada

Au cours des dernières années, le domaine de la science des données a connu une croissance explosive puisque les entreprises de nombreux secteurs investissent massivement dans des solutions fondées sur les données afin d’optimiser les processus de prise de décision. Cependant, le succès de tout projet de science des données dépend fortement de la qualité du code en arrière-plan. L’écriture du code de niveau de production est essentielle pour veiller à ce que les modèles et les applications de la science des données soient mis en œuvre et appliqués efficacement, permettant ainsi aux entreprises de réaliser la pleine valeur de leur investissement dans la science des données.

Le code de niveau de production correspond à un code conçu pour satisfaire les besoins d’un utilisateur final, l’accent étant mis sur l’extensibilité, la robustesse et la maintenabilité. Cela contraste avec le code écrit uniquement à des fins d’expérimentation et d’exploration, qui peut ne pas être optimisé en vue d’être utilisé dans l’environnement de production. L’écriture du code de niveau de production est essentielle pour les projets en science des données, car elle permet le déploiement efficace de solutions dans des environnements de production, où ils peuvent être intégrés à d’autres systèmes et utilisés pour éclairer la prise de décision.

Le code de niveau de production présente plusieurs avantages clés pour les projets en science des données. Tout d’abord, il garantit que les solutions de science des données peuvent être facilement déployés et appliqués. Deuxièmement, il réduit le risque d’erreurs, de vulnérabilités et de temps d’arrêt. Enfin, il facilite la collaboration entre les scientifiques des données et les réalisateurs de logiciels, ce qui leur permet de travailler ensemble plus efficacement pour fournir des solutions de haute qualité. Enfin, il favorise la réutilisation du code et la transparence, ce qui permet aux scientifiques des données d’échanger leurs travaux avec d’autres et de s’appuyer sur le code existant pour améliorer les projets à venir.

Dans l’ensemble, le code de niveau de production est un élément essentiel de tout projet de science des données réussi. En accordant la priorité au développement d’un code qui est de haute qualité, évolutif et maintenable, les entreprises peuvent ainsi assurer l’optimisation de leur investissement dans la science des données, prendre des décisions plus éclairées et acquérir un avantage concurrentiel dans l’économie actuelle axée sur les données.

La portée de la science des données et ses différentes applications

Le champ d’application de la science des données est vaste; il englobe un large éventail de techniques et d’outils utilisés pour tirer des connaissances à partir de données. À la base, la science des données comprend la collecte, l’épuration et l’analyse des données afin de cerner les tendances et de faire des prédictions. Ses applications sont nombreuses, allant de l’intelligence économique et de l’analyse marketing jusqu’aux soins de santé et à la recherche scientifique. La science des données est utilisée pour résoudre un large éventail de problèmes, comme la prédiction du comportement des consommateurs, la détection de la fraude, l’optimisation des activités et l’amélioration des résultats des soins de santé. Comme la quantité de données générées continue de croître, le champ d’application de la science des données devrait aussi continuer de s’étendre, en mettant de plus en plus l’accent sur l’utilisation de techniques avancées comme l’apprentissage automatique et l’intelligence artificielle.

Pratiques de programmation et de génie logiciel appropriées pour les scientifiques des données

Des pratiques de programmation et de génie logiciel appropriées sont essentielles pour créer des applications de science des données robustes qui peuvent être déployées et tenues à jour efficacement. Les applications robustes sont celles qui sont fiables, évolutives et efficaces et qui répondent aux besoins de l’utilisateur final. Plusieurs types de pratiques de programmation et de génie logiciel sont particulièrement importants dans le contexte de la science des données, comme le contrôle de version, les tests automatisés, la documentation, la sécurité, l’optimisation du code et l’usage adéquat des modèles de conception, pour n’en citer que quelques-uns.

En suivant les bonnes pratiques, les scientifiques des données peuvent créer des applications robustes qui sont fiables, évolutives et efficaces, tout en mettant l’accent sur les besoins de l’utilisateur final. Cela est essentiel pour garantir que les solutions de la science des données apportent une valeur optimale aux entreprises et aux autres organismes.

Projet de prétraitement des données administratives et son objectif : un exemple

Le projet de prétraitement des données administratives (PDA) est une application du secteur 7 qui nécessite la participation de la Division de la science des données pour réusiner une composante élaborée par un citoyen en raison de divers problèmes qui nuisaient à son état de préparation pour l’environnement de production. Plus précisément, la base du code utilisée pour intégrer les flux de travail externes au système ne respectait pas les pratiques de programmation établies, ce qui se traduisait par une expérience utilisateur lourde et difficile. De plus, on remarque une absence notable de rétroaction pertinente de la part du programme lorsqu’il y a une défaillance, ce qui fait en sorte qu’il est difficile de diagnostiquer et de régler les problèmes.

On a aussi constaté des lacunes dans la base de code en ce qui a trait à la documentation, à la journalisation des erreurs et aux messages d’erreur significatifs pour les utilisateurs, ce qui a encore aggravé le problème. Le couplage dans la base de code était excessif, ce qui fait en sorte qu’il a été difficile de modifier ou d’étendre des fonctions du programme, au besoin. De plus, il n’y avait aucun essai unitaire en place pour assurer la fiabilité et l’exactitude. En outre, le code était trop adapté à un exemple précis. Il était donc difficile de l’appliquer d’une façon générale à d’autres scénarios d’utilisation. Il y avait aussi plusieurs caractéristiques souhaitées qui n’étaient pas présentes pour satisfaire les besoins du client.

Ces problèmes nuisaient grandement à la capacité du projet de PDA d’effectuer le prétraitement de données semi-structurées. L’absence de rétroaction et de documentation a fait en sorte qu’il était extrêmement difficile, voire impossible, pour le client d’utiliser efficacement les flux de travail intégrés, ce qui a donné lieu à de la frustration et à des inefficacités. Souvent, les résultats du programme n’étaient pas conformes aux attentes, et l’absence d’essais unitaires ne permettait pas de garantir la fiabilité et la précision. En résumé, le projet de PDA nécessitait le réusinage des flux de travail intégrés (c.-à-d. l’épuration ou le remaniement du code). Ce processus à multiples facettes comprenait le règlement d’un éventail de problèmes de programmation et d’ingénierie pour que l’application soit plus robuste et prête pour l’environnement de production. Pour ce faire, nous avons utilisé une approche de réusinage « Rouge-Vert » pour améliorer la qualité du produit.

Réusinage à l’aide d’une approche « Rouge-Vert » au lieu d’une approche « Vert-Rouge »

Le réusinage est le processus de remaniement du code existant en vue d’en améliorer la qualité, la lisibilité, la maintenance et le rendement. Cela peut nécessiter diverses activités, y compris l’épuration du formatage du code, l’élimination des codes en double, l’amélioration des conventions de dénomination et l’introduction de nouvelles abstractions et de nouveaux modèles de conception.

Le réusinage est avantageux pour diverses raisons. Premièrement, cette approche peut améliorer la qualité globale de la base de code, ce qui facilite la compréhension et la maintenance. Cela permet d’économiser du temps et des efforts à long terme, surtout lorsque les bases de code deviennent plus grandes et plus complexes. De plus, le réusinage peut améliorer la performance et réduire les risques de bogues et d’erreurs, ce qui se traduit par une application plus fiable et robuste.

Une approche courante de réusinage est l’approche « Rouge-Vert », qui fait partie du processus de développement basé sur les tests. Dans l’approche Rouge-Vert, un scénario d’essai défaillant est écrit avant que le code ne soit écrit ou réusiné. À la suite de ce test défaillant, on procède à l’écriture du code minimal qui serait requis pour obtenir un test réussi, après quoi on réusine le code pour l’améliorer, au besoin. Pour l’approche Vert-Rouge, on procède dans le sens inverse : le code est écrit avant l’écriture et l’exécution des scénarios d’essai.

L’un des avantages de l’approche Rouge-Vert est la capacité de détecter les erreurs dès le début du processus de développement, ce qui permet de réduire le nombre de bogues et d’améliorer l’efficacité des cycles de développement. L’approche met également l’accent sur le développement basé sur les tests, ce qui peut mener à un code plus fiable et précis. De plus, elle incite les développeurs à prendre en compte l’expérience de l’utilisateur dès le départ, en veillant à ce que la base de code soit conçue en ayant l’utilisateur final en tête.

Figure 1 : Rouge-Vert-Réusinage

Figure 1 : Rouge-Vert-Réusinage

La première étape, la composante « Rouge », désigne l’écriture d’un test qui échoue. À partir de là, le code est modifié pour obtenir un test réussi, ce qui correspond à la composante « Vert ». Enfin, on procède au réusinage, le cas échéant, pour améliorer davantage la base de code. Un autre test sera ensuite créé et exécuté. Si ce test échoue, le processus retourne à la composante « Rouge ». Le cycle se poursuit indéfiniment jusqu’à ce que l’état souhaité soit atteint, ce qui met fin à la boucle de commande.

Dans le cas du projet de PDA, l’approche Rouge-Vert a été appliquée lors du processus de réusinage. Ceci a mené à un processus de déploiement sans heurt, et l’application était plus fiable, plus robuste et plus facile à utiliser. En appliquant cette approche, nous avons pu relever les différents défis de programmation et d’ingénierie auxquels fait face le projet, ce qui a permis d’obtenir une application plus efficiente, plus efficace, plus stable et prête pour l’environnement de production.

Les pratiques normalisées manquent souvent dans les travaux de science des données

Si la science des données est devenue un domaine essentiel dans de nombreuses industries, elle n’est pas exempte de défis. L’un des principaux problèmes est l’absence de pratiques normalisées qui font souvent défaut dans les travaux de science des données. Bien qu’il existe de nombreuses pratiques normalisées qui peuvent améliorer la qualité, la maintenabilité et la reproductibilité du code de la science des données, de nombreux scientifiques des données les négligent au profit de solutions rapides.

La présente section aborde certaines des pratiques normalisées les plus importantes qui font souvent défaut dans les travaux de science des données. Ces pratiques comprennent :

  • le contrôle de la version;
  • la vérification du code (unité, intégration, système, acceptation);
  • la documentation;
  • l’examen du code;
  • la garantie de la reproductibilité;
  • le respect des règles de style (c’est-à-dire les normes PEP);
  • l’utilisation des annotations de type;
  • la rédaction de chaînes de documentation claires;
  • la journalisation des erreurs;
  • la validation de données;
  • l’écriture d’un code de faible entretien;
  • la mise en œuvre de processus d’intégration continue et de déploiement continu (IC/DC).

En suivant ces pratiques normalisées, les scientifiques des données peuvent améliorer la qualité et la fiabilité de leur code, réduire les erreurs et les bogues et rendre leur travail plus accessible aux autres.

Documenter le code

La documentation du code est essentielle pour rendre le code compréhensible et utilisable par d’autres développeurs. Dans le domaine de la science des données, il peut s’agir de documenter les étapes de nettoyage des données, d’ingénierie des caractéristiques, de formation des modèles et d’évaluation. Sans une documentation appropriée, il peut être difficile pour les autres de comprendre ce que fait le code, les hypothèses formulées et les compromis envisagés. L’absence de documentation appropriée peut également rendre difficile la reproduction des résultats, ce qui est un aspect fondamental de la recherche scientifique et de la création d’applications robustes et fiables.

Rédaction de chaînes de documentation claires

Les chaînes de documentation sont des chaînes qui fournissent de la documentation sur les fonctions, les classes et les modules. Elles sont généralement écrites dans un format spécial qui peut être facilement analysé par des outils comme Sphinx pour générer de la documentation. La rédaction d’une documentation claire peut aider les autres développeurs à comprendre ce que fait une fonction ou un module, les arguments qu’elle prend et ce qu’elle renvoie. Elle peut également fournir des exemples d’utilisation du code, ce qui peut permettre à d’autres développeurs d’intégrer plus facilement le code dans leurs propres projets.

def complex (real=0.0, imag=0.0):
    """Form a complex number.

    Keyword arguments:
    real -- the real part (default 0.0)
    imag -- the imaginary part (default 0.0)
    """
    if imag == 0.0 and real == 0.0:
        return compelx_zero
    ...

Exemple de chaîne de documentation multiligne

Respect des règles de style

Les règles de style relatives au code jouent un rôle crucial pour assurer la lisibilité, la maintenabilité et la cohérence d’un projet. En respectant ces règles, les développeurs peuvent améliorer la collaboration et réduire le risque d’erreurs. Une indentation cohérente, des noms de variables clairs, des commentaires concis et le respect des conventions établies sont quelques-uns des éléments clés de règles de style efficaces qui contribuent à la production d’un code de haute qualité et bien organisé. Les normes PEP (proposition d’amélioration de Python), qui fournissent des lignes directrices et de bonnes pratiques pour l’écriture du code Python, en sont un exemple. Elles garantissent que le code peut être compris par d’autres développeurs Python, ce qui est important dans les projets collaboratifs, mais aussi pour la maintenabilité générale. Certaines normes PEP traitent des conventions d’appellation (en anglais seulement), du formatage du code (en anglais seulement), et de la manière de gérer les erreurs et les exceptions (en anglais seulement).

Utilisation des annotations de type

Les annotations de type sont des annotations qui indiquent le type d’une variable ou d’un argument de fonction. Elles ne sont pas strictement nécessaires à l’exécution du code Python, mais elles peuvent améliorer la lisibilité, la maintenabilité et la fiabilité du code. Les annotations de type peuvent aider à détecter les erreurs plus tôt dans le processus de développement et à rendre le code plus facile à comprendre pour les autres développeurs. Elles offrent également une meilleure prise en charge de l’environnement de développement interactif et peuvent améliorer les performances en permettant une allocation plus efficace de la mémoire.

Contrôle de version

Le contrôle de version est le processus de gestion des modifications apportées au code et à d’autres fichiers au fil du temps. Il permet aux développeurs de suivre et d’annuler les modifications, de collaborer sur le code et de s’assurer que tout le monde travaille avec la même version de code. Dans le domaine de la science des données, le contrôle de version est particulièrement important, car les expériences peuvent générer de grandes quantités de données et de codes. En utilisant le contrôle de version, les scientifiques des données peuvent s’assurer qu’ils peuvent reproduire et comparer les résultats entre les différentes versions de leur code et de leurs données. Le contrôle de version permet également de suivre et de documenter les modifications, ce qui peut s’avérer important à des fins de conformité et de vérification.

Figure 2 : Illustration du contrôle de version

Figure 2 : Illustration du contrôle de version

Une branche principale (V1) est créée en tant que projet principal. Une nouvelle branche dérivée de la V1 est créée afin de développer et de tester jusqu’à ce que les modifications soient prêtes à être fusionnées avec la V1, créant ainsi la V2 de la branche principale. La V2 est ensuite publiée.

Vérification du code

La vérification du code est la vérification formelle (et parfois automatisée) de l’exhaustivité, de la qualité et de l’exactitude du code par rapport aux résultats attendus. Il est essentiel de vérifier le code pour s’assurer que la base de code fonctionne comme prévu et que l’on peut s’y fier. Dans le domaine de la science des données, les tests peuvent inclure des essais unitaires pour les fonctions et les classes, des essais d’intégration pour les modèles et les pipelines, et des essais de validation pour les ensembles de données. En vérifiant le code, les scientifiques des données peuvent détecter les erreurs et les bogues plus tôt dans le processus de développement et s’assurer que les changements apportés au code n’introduisent pas de nouveaux problèmes. Cela permet d’économiser du temps et des ressources à long terme en réduisant la probabilité d’erreurs inattendues et en améliorant la qualité générale du code.

Examens du code

Les examens du code sont un processus au cours duquel d’autres développeurs examinent le nouveau code et les modifications apportées au code pour s’assurer qu’ils respectent les normes de qualité et de style, qu’ils sont maintenables et qu’ils répondent aux exigences du projet. Dans le domaine de la science des données, les examens du code peuvent être particulièrement importants, car les expériences peuvent générer du code et des données complexes, et parce que les scientifiques des données travaillent souvent de manière indépendante ou en petites équipes. Les examens du code permettent de détecter les erreurs, de s’assurer que le code respecte les meilleures pratiques et les exigences du projet et de promouvoir l’échange des connaissances et la collaboration entre les membres de l’équipe.

Garantie de la reproductibilité

La reproductibilité est un aspect essentiel de la recherche scientifique et de la science des données. Des résultats reproductibles sont nécessaires pour vérifier et approfondir les études antérieures et pour garantir que les résultats sont cohérents, valides et fiables. Dans le domaine de la science des données, la reproductibilité peut inclure la documentation du code et des données, l’utilisation du contrôle de version, des essais rigoureux et la fourniture d’instructions détaillées pour l’exécution des expériences. En garantissant la reproductibilité, les scientifiques des données peuvent rendre leurs résultats plus fiables et crédibles et accroître la confiance dans leurs conclusions.

Journalisation

La journalisation consiste à tenir un registre des événements qui se produisent dans un système informatique. Cela est important pour le dépannage, la collecte de renseignements, la sécurité, la fourniture de renseignements sur la vérification, entre autres raisons. Il s’agit généralement de l’écriture de messages dans un fichier journal. La journalisation est un élément essentiel du développement de logiciels robustes et fiables, y compris les applications de science des données. La journalisation des erreurs permet de cerner les problèmes liés à l’application, ce qui permet de la déboguer et de l’améliorer. En journalisant les erreurs, les développeurs peuvent savoir ce qui n’a pas fonctionné dans l’application, ce qui peut les aider à diagnostiquer le problème et à prendre des mesures correctives.

À l’aide de la journalisation, les développeurs peuvent également suivre les performances de l’application au fil du temps, ce qui leur permet de déterminer les goulots d’étranglement potentiels et les domaines à améliorer. Cela peut s’avérer particulièrement important pour les applications de science des données qui pourraient devoir traiter de grands ensembles de données ou d’algorithmes complexes.

Dans l’ensemble, la journalisation est une pratique essentielle pour développer et maintenir des applications de haute qualité de science des données.

Écriture d’un code de faible entretien

Lorsqu’il s’agit d’applications de science des données, la performance est souvent un facteur clé. Pour que l’application soit rapide et réactive, il est important d’écrire un code optimisé pour la vitesse et l’efficacité.

L’un des moyens d’y parvenir est d’écrire un code de faible entretien. Un code de faible entretien est un code qui utilise un minimum de ressources et dont le coût de calcul est faible. Cela peut contribuer à améliorer les performances de l’application, en particulier lorsqu’il s’agit de grands ensembles de données ou d’algorithmes complexes.

L’écriture d’un code de faible entretien nécessite un examen minutieux des algorithmes et des structures de données utilisés dans l’application ainsi qu’une attention particulière à l’utilisation de la mémoire et à l’efficacité du traitement. Il convient de réfléchir aux besoins, à l’architecture globale et à la conception d’un système afin d’éviter des modifications importantes de la conception en cours de route.

En outre, le code de faible entretien est facile à tenir à jour et nécessite des révisions et des mises à jour peu fréquentes. Il s’agit d’un point important, car cela réduit le coût de maintenance des systèmes et permet un développement plus axé sur les améliorations ou les nouvelles solutions.

Dans l’ensemble, l’écriture du code de faible entretien est une pratique importante pour les scientifiques des données qui souhaitent développer des applications rapides et réactives capables de gérer de grands ensembles de données et des analyses complexes tout en maintenant des coûts de maintenance faibles.

Validation des données

La validation des données consiste à vérifier que les données d’entrée répondent à certaines exigences ou normes. La validation des données est une autre pratique importante dans le domaine de la science des données, car elle permet de cerner les erreurs ou les incohérences dans les données avant qu’elles n’aient une incidence sur le processus d’analyse ou de modélisation.

La validation des données peut prendre de nombreuses formes, de la vérification du format correct des données à la vérification qu’elles soient dans les fourchettes ou les valeurs attendues. Il existe différents types de contrôles de validation des données, comme le type, le format, l’exactitude, la cohérence et l’unicité. En validant les données, les scientifiques des données peuvent s’assurer que leurs analyses sont basées sur des données exactes et fiables, ce qui peut améliorer la précision et la crédibilité de leurs résultats.

Intégration continue et déploiement continu

L’intégration continue et le déploiement continu (IC/DC) sont un ensemble de bonnes pratiques visant à automatiser le processus de création, d’essai et de déploiement de logiciels. L’IC/DC peut contribuer à améliorer la qualité et la fiabilité des applications de science des données en garantissant que les changements sont testés de manière approfondie et déployés rapidement et de manière fiable.

L’IC/DC suppose l’automatisation du processus de construction, des essais et de déploiement des logiciels, souvent à l’aide d’outils et de plateformes comme Jenkins, GitLab ou GitHub Actions. En automatisant ces processus, les développeurs peuvent s’assurer que l’application est construite et testée de manière cohérente et que les erreurs ou les problèmes qui empêchent le déploiement du code problématique sont déterminés et traités rapidement.

L’IC/DC peut également contribuer à améliorer la collaboration entre les membres de l’équipe, en garantissant que les changements sont intégrés et testés dès qu’ils sont effectués, plutôt que d’attendre un cycle de publication périodique.

Figure 3 : IC/DC

Figure 3 : IC/DC

L’image illustre un processus répétitif représenté par le symbole de l’infini divisé en huit parties inégales. En partant du milieu et en allant dans le sens inverse des aiguilles d’une montre, les premières de ces parties sont : planifier, coder, construire et tester en continu. Ensuite, en partant de la dernière partie, qui était au centre, et en se déplaçant dans le sens des aiguilles d’une montre, les parties sont : publier, déployer, opérer et surveiller, avant de revenir à l’état initial de l’image.

Dans l’ensemble, l’IC/DC est une pratique importante pour les scientifiques des données qui souhaitent développer et déployer des applications de science des données de haute qualité de manière rapide et fiable.

Conclusion

En résumé, le code de niveau de production est essentiel pour les projets et les applications de science des données. Des pratiques de programmation appropriées et des principes de génie logiciel comme l’adhésion aux normes PEP, l’utilisation des annotations de type, la rédaction d’une documentation claire, le contrôle de version, la vérification du code, la journalisation des erreurs, la validation des données, l’écriture d’un code de faible entretien, la mise en œuvre d’une intégration continue et d’un déploiement continu (IC/DC) et la garantie de la reproductibilité sont essentiels pour créer des applications robustes, maintenables et évolutives.

Le non-respect de ces pratiques peut entraîner des difficultés comme le manque de documentation, l’absence de journalisation des erreurs, l’absence de messages d’erreur importants pour les utilisateurs, un code fortement couplé, un code trop adapté à un exemple précis, l’absence de caractéristiques souhaitées par les clients et l’absence de rétroaction en cas d’échec. Ces problèmes peuvent avoir de graves répercussions sur la préparation de la production et frustrer les utilisateurs. Si un utilisateur est frustré, sa productivité s’en ressentira, ce qui entraînera des répercussions négatives en aval sur la capacité des entreprises à remplir efficacement leur mission.

Le conseil le plus pratique pour mettre en œuvre un code de niveau de production est de travailler ensemble, d’attribuer des responsabilités et des délais clairs et de comprendre l’importance de chacun de ces concepts. Ce faisant, il devient facile de mettre en œuvre ces pratiques dans les projets et de créer des applications maintenables et évolutives.

Rencontre avec le scientifique des données

Inscrivez-vous à la présentation Rencontre avec le scientifique des données

Si vous avez des questions à propos de mon article ou si vous souhaitez en discuter davantage, je vous invite à une Rencontre avec le scientifique des données, un événement au cours duquel les auteurs rencontrent les lecteurs, présentent leur sujet et discutent de leurs résultats.

Inscrivez-vous à la présentation Rencontre avec le scientifique des données.
À bientôt!

MS Teams – le lien sera fourni aux participants par courriel

Abonnez-vous au bulletin d'information du Réseau de la science des données pour la fonction publique fédérale pour rester au fait des dernières nouvelles de la science des données.

Date de modification :

Combiner les données de façon sécuritaire pour enrichir nos connaissances

Alors que les mouvements sociaux en faveur des droits des Autochtones, de la lutte contre le racisme et de l’équité économique prennent de l’ampleur au Canada, de nombreuses discussions se tiennent à l’échelle nationale sur l’équité, la diversité et l’inclusion. Statistique Canada répond à l’appel des Canadiens qui souhaitent obtenir des données détaillées pour éliminer les disparités entre les genres, le racisme et les autres barrières systémiques.

Dans le cadre du Plan d’action sur les données désagrégées annoncé dans le budget de 2021, Statistique Canada travaille en collaboration avec les Canadiens en vue de produire de meilleures données, qui permettront de prendre de meilleures décisions.

Ce plan d’action vise à combiner les données et à les répartir en sous-catégories selon le genre, la race, l’âge, l’orientation sexuelle, l’incapacité (ou une combinaison de ces facteurs). Le processus permettra de lever le voile sur les inégalités économiques et sociales au pays. Pour que chaque Canadien puisse atteindre son plein potentiel, nous devons bien comprendre les circonstances dans lesquelles vivent les gens ainsi que les obstacles auxquels ils sont confrontés. Nous ne pouvons pas améliorer ce que nous ne pouvons pas mesurer.

Pour pouvoir offrir davantage de données désagrégées, Statistique Canada explore de nouvelles façons sécuritaires de tirer le maximum des données qui ont déjà été recueillies (p. ex. en combinant de façon sécuritaire ses données de recensement et d’enquête avec des données déjà recueillies par d’autres organismes fédéraux, provinciaux ou territoriaux [parfois appelées « données administratives »]).

En couplant ainsi les données, nous pourrons réduire le fardeau des Canadiens en réutilisant les données qu’ils ont déjà transmises au gouvernement. Nous pourrons également améliorer l’exactitude des données et élargir l’éventail de résultats et de renseignements qu’elles permettent d’obtenir. Le couplage de données est une activité qui se fait depuis de nombreuses années à Statistique Canada, conformément à la Directive sur le couplage de microdonnées de l’organisme.

La nouvelle Infrastructure sécurisée pour l’intégration des données (ISID) de Statistique Canada, qui en est actuellement aux phases de consultation et de construction, offre un ensemble de méthodes, de technologies et de protocoles qui permettront d’améliorer la façon dont l’organisme combine ses données existantes avec celles d’autres organisations.

L’ISID repose sur de solides principes en matière de protection de la vie privée. Les fichiers de données couplées sont nettoyés de tout identificateur personnel (nom, adresse, numéro d’assurance sociale, etc.) immédiatement après le couplage et avant l’analyse et l’utilisation des données.

Tous les renseignements recueillis dans le cadre des recensements et des enquêtes de Statistique Canada, ainsi que les données administratives provenant de tiers, sont protégés en vertu de la Loi sur la statistique, de la Loi sur l’accès à l’information et de la Loi sur la protection des renseignements personnels. En vertu de la loi, aucun renseignement personnel recueilli par Statistique Canada n’est communiqué à une autre organisation ou à une autre personne, même au sein du gouvernement du Canada. De plus, les employés de Statistique Canada prêtent un serment de discrétion et sont passibles d’une amende et/ou d’une peine d’emprisonnement s’ils divulguent illégalement des renseignements confidentiels.

En créant un environnement sécuritaire pour combiner les données, Statistique Canada maximise les renseignements dont il dispose, ce qui permettra de bâtir un Canada plus équitable en intégrant les facteurs d’équité et d’inclusion dans la prise de décisions.

Si vous désirez en savoir plus sur notre infrastructure sécurisée pour l’intégration des données, envoyez-nous un courriel pour obtenir plus de détails sur l’expérience canadienne dans la construction d’une infrastructure de registres statistiques intégrés de manière responsable sur le plan de la protection des renseignements personnels : statcan.statisticalregisters-registresstatistiques.statcan@statcan.gc.ca

Utiliser l'application StatsCAN : Questions et réponses

Vue d'ensemble

Protection de la vie privée

L’application StatsCAN recueille-t-elle des renseignements personnels?

Comment puis-je enregistrer une publication?

Non. L’application StatsCAN ne recueille pas de renseignements personnels, comme votre nom, votre numéro de téléphone ou votre adresse de courriel. Aucun renseignement personnel n’est requis pour accéder à l’application ou l’utiliser. Statistique Canada obtiendrait ce type de renseignement seulement si vous le fournissez, en envoyant un courriel ou en remplissant un formulaire en ligne.

Les renseignements obtenus dans le cadre de telles interactions sont protégés pour empêcher toute divulgation non autorisée. Pour en savoir davantage sur la manière dont nous traitons vos renseignements personnels, veuillez consulter l’Avis de confidentialité, la page portant sur La protection de vos renseignements personnels en tant que client et l’Évaluation des facteurs relatifs à la vie privée de Statistique Canada.

L’application StatsCAN recueille-t-elle d’autres renseignements?

Pendant combien de temps les publications sont-elles conservées dans mes Éléments sauvegardés?

Avec votre consentement, Statistique Canada reçoit des statistiques agrégées et des renseignements anonymes sur votre utilisation de l’application StatsCAN fournis par Firebase, un tiers fournisseur de services, qui utilise Google Analytics.

Par renseignements agrégés, on entend des données qui ont été combinées ou résumées à partir de points de données individuels sous une forme collective. Ce type de renseignement fournit une vue d’ensemble ou un résumé général des renseignements sans révéler de détails particuliers sur les points de données individuels. Par exemple, des renseignements agrégés peuvent comprendre des valeurs moyennes, des totaux ou des pourcentages obtenus à partir de multiples points de données.

Les renseignements anonymes sont des données qui ont été rendues anonymes ou ont été dépersonnalisées dans la mesure où elles ne peuvent pas être utilisées pour identifier ou distinguer des personnes, ce qui permet de protéger leur vie privée.

Quels renseignements StatsCAN recueille-t-elle?

Comment puis-je supprimer une publication sauvegardée?

Avec votre consentement, l’application StatsCAN recueille les renseignements suivants :

  • Renseignements sur votre appareil et l’application
    • marque, modèle, type, système d’exploitation et version de l’appareil;
    • données de localisation (pays, province, ville);
    • installations, mises à jour et désinstallations de l’application;
    • version de l’application;
    • renseignements sur les pannes de l’application ou d’autres problèmes liés à l’application;
    • identifiant publicitaire de l’appareil;
    • identifiant d’instance de l’application;
  • Renseignements sur vous, à titre d’utilisateur ou d’utilisatrice
    • fourchette d’âge;
    • genre;
    • sujets que vous suivez;
    • types de publications que vous avez lues, enregistrées et partagées;
    • temps que vous avez passé à utiliser l’application;
    • préférences concernant les réglages que vous avez choisis à titre d’utilisateur ou d’utilisatrice et renseignements sur l’utilisation;
    • préférences sur les notifications intégrées à l’application et les notifications poussées, et renseignements sur l’utilisation.

Il convient de noter que des seuils sont imposés pour les données démographiques (c’est-à-dire la fourchette d’âge et le genre) et que les données seront affichées uniquement si elles respectent les seuils d’agrégation minimaux.

Les renseignements sur vos préférences, comme vos sujets d’intérêt, votre langue préférée et vos réglages, y compris les notifications, qui sont désactivées par défaut et que vous pouvez activer si vous le souhaitez, seront stockés sur votre appareil et utilisés pour afficher les renseignements selon vos préférences.

Avec qui les renseignements sont-ils partagés?

Comment puis-je partager une publication?

Avec votre consentement, l’application StatsCAN partage les données recueillies directement et en toute sécurité avec Firebase, le tiers fournisseur de services analytiques. L’application ne partagera jamais vos données personnelles avec l’équipe de l’application StatsCAN ou tout autre représentant de Statistique Canada. Les renseignements sur l’utilisation de l’application partagés avec Firebase sont agrégés et anonymisés avant d’être partagés avec l’équipe de l’application StatsCAN.

Comment les renseignements recueillis par l’application StatsCAN sont-ils utilisés?

Comment puis-je savoir que de nouvelles publications sont accessibles?

Statistique Canada utilisera seulement les statistiques agrégées et les renseignements anonymes fournis par les tiers fournisseurs de services analytiques dans le but d’améliorer le rendement de l’application StatsCAN, sa fonctionnalité et l’expérience utilisateur globale.

Les données que nous recueillons sont analysées pour évaluer le rendement du contenu et favoriser l’élaboration de contenu qui correspond aux intérêts et aux préférences des utilisateurs. Les données peuvent également être utilisées pour analyser les modèles d’interaction des utilisateurs, leur comportement et leurs préférences de navigation (p. ex. la façon dont les utilisateurs accèdent au contenu et ce qu’ils lisent dans l’application StatsCAN) en vue d’optimiser la circulation des renseignements dans l’application ou de mener des études de marché.

Les renseignements recueillis au moyen du formulaire Contactez-nous servent strictement à répondre aux demandes de renseignements, à obtenir des commentaires sur l’application, à corriger les bogues ou les erreurs.

Pendant combien de temps les renseignements sont-ils stockés?

Avec qui puis-je communiquer si j'ai des questions à propos d'une publication?Depuis une publication, vous pouvez communiquer avec nous en touchant le menu des options (...) situé au coin supérieur droit de l'écran, et en sélectionnant l'option Contactez-nous.

Pour connaître les politiques et les procédures de conservation et de suppression des données du tiers fournisseur de services analytiques de l’application StatsCAN, veuillez consulter la documentation suivante :

Cette application peut-elle localiser ma position?

Avec qui puis-je communiquer si j'ai des questions à propos d'une publication?

Avec votre consentement, Statistique Canada reçoit des statistiques agrégées et des renseignements anonymes sur votre utilisation de l’application StatsCAN fournis par Firebase, un tiers fournisseur de services, dont les données sur votre emplacement (pays, province et ville).

StatsCAN n’utilise pas de renseignements provenant de réseaux cellulaires, Wi-Fi et GPS (système mondial de positionnement), ni n’utilise Bluetooth pour déterminer et suivre votre emplacement précis, vos mouvements ou vos activités (comme la géolocalisation, l’accès à la caméra, l’accès au microphone ou l’intégration au calendrier).

Publications

Comment puis-je enregistrer une publication?

Comment puis-je enregistrer une publication?

Vous n’avez peut-être pas toujours le temps de lire vos publications préférées immédiatement. Vous pouvez sauvegarder une publication pour la lire à un moment qui vous convient en sélectionnant l’icône représentant le contour d’un signet, dans le coin supérieur droit de la page d’une publication. Un message s’affichera temporairement pour confirmer que la publication a été ajoutée à votre page Sauvegardés, et l’icône de signet deviendra pleine.

Vous pouvez accéder à vos publications enregistrées en allant à la page Sauvegardés à partir du menu au bas de l’écran.

Veuillez noter que vous pouvez consulter vos publications sauvegardées uniquement lorsque vous êtes connecté(e) à Internet.

Pendant combien de temps les publications sont-elles conservées dans mes Éléments sauvegardés?

Pendant combien de temps les publications sont-elles conservées dans mes Éléments sauvegardés?

Il n'y a pas de limite de temps. Les publications figureront parmi vos Éléments sauvegardés jusqu'à ce que vous choisissiez de les supprimer.

Comment puis-je supprimer une publication sauvegardée?

Comment puis-je supprimer une publication sauvegardée?

Vous pouvez supprimer une publication de vos Éléments sauvegardés en touchant l’icône représentant un signet rempli s’affichant dans la vignette de la publication, à côté de l’image de l’article.

Un message apparaîtra, vous demandant de confirmer que vous souhaitez supprimer la publication en question.

Comment puis-je partager une publication?

Comment puis-je partager une publication?

Vous pouvez partager des faits divertissants, des éléments visuels, de brèves histoires et des renseignements clés depuis l'application StatsCAN avec des amis et des collègues.

Vous pouvez partager du contenu par courriel, par texto ou au moyen de vos plateformes préférées des médias sociaux.

Accédez à la fonction 'Partager' en choisissant tout d'abord une publication, puis en sélectionnant Partager cette publication dans le menu des options (…) situé au coin supérieur droit.

La fonction 'Partager' est également accessible au bas de l'écran de la publication.

Les plateformes par défaut de votre appareil vous seront suggérées pour partager le contenu.

Comment puis-je savoir que de nouvelles publications sont accessibles?

Comment puis-je savoir que de nouvelles publications sont accessibles?

Vous pouvez être informé lorsque de nouvelles publications sont accessibles en activant les notifications intégrées à l’application ou les notifications poussées. Pour ce faire, allez à Paramètres > Préférences > Gérer les notifications.

Dans la section Gérer les notifications, activer Sujets d’intérêt pour recevoir des notifications.
Si les notifications poussées ne sont pas activées, vous serez informé des nouvelles publications liées à un sujet que vous suivez par l’entremise de l’icône en forme de cloche dans le coin supérieur droit de l’écran Publications.

Si les notifications poussées sont activées, vous serez informé des nouvelles publications liées à un sujet que vous suivez par l’entremise de l’icône en forme de cloche dans le coin supérieur droit de l’écran Publications et dans une bannière au haut de votre écran si votre téléphone est déverrouillé, ou sur votre écran de verrouillage si votre téléphone est verrouillé.

Note : Pour recevoir des notifications poussées, les notifications intégrées à l’application doivent être activées.

Avec qui puis-je communiquer si j'ai des questions à propos d'une publication?

Avec qui puis-je communiquer si j'ai des questions à propos d'une publication?

Depuis une publication, vous pouvez communiquer avec nous en touchant le menu des options (...) situé au coin supérieur droit de l'écran, et en sélectionnant l'option Contactez-nous.

Une fonction de clavardage (icône bleue avec bulles de clavardage se trouvant au coin inférieur droit de l'écran) est également offerte à l'écran Contactez-nous. Il s'agit du clavardage en direct de Statistique Canada, au moyen duquel vous pouvez communiquer avec des agents de Statistique Canada pour obtenir immédiatement du soutien, pendant les heures d'ouverture habituelles.

Vous pouvez également fournir vos commentaires, suggestions ou questions à Paramètres > Soutien et rétroactions > Contactez-nous.

Vous trouverez aussi notre adresse de courriel et notre numéro de téléphone à Paramètres > Soutien et rétroactions > Aide et FAQ.

Rechercher

Pourquoi les mots-clés utilisés pour faire mes recherches sont-ils conservés sous Recherches récentes?

Pourquoi les mots-clés utilisés pour faire mes recherches sont-ils conservés sous Recherches récentes?

StatsCAN stocke les cinq mots-clés les plus récents qui ont servi à faire une recherche. Vous pouvez donc les réutiliser rapidement s'il y a lieu.

Puis-je effacer l'historique de la recherche?

Puis-je effacer l'historique de la recherche?

Oui. Vous pouvez effacer vos recherches récentes à Paramètres > Préférences > Effacer l'historique de recherche. Touchez Effacer dans la fenêtre en incrustation pour confirmer, ou Annuler pour annuler l'action.

Notifications

Comment puis-je activer ou désactiver les notifications?

Comment puis-je activer ou désactiver les notifications?

Vous pouvez gérer vos préférences en matière de notifications à Paramètres > Préférences > Gérer les notifications.

Dans la section Je veux recevoir des notifications sur, vous pouvez activer la fonction Sujets d’intérêt (pour activer les notifications), ou la désactiver (pour désactiver les notifications)

Dans la section Recevoir des notifications dans votre appareil, accédez à Gérer les notifications pour gérer les préférences de notification dans les paramètres de votre appareil.

Note : Pour recevoir des notifications poussées, les notifications intégrées à l’application doivent être activées.

Comment puis-je indiquer que les notifications intégrées à l’application ont été lues?

Comment puis-je indiquer qu'une notification a été lue?

En touchant le titre d’une publication à l’écran Notifications, vous pouvez lire la publication. Cette action permet d’indiquer que la notification a été lue.

Si vous souhaitez indiquer que toutes les notifications ont été lues, sélectionnez le menu des options (...) se trouvant dans le coin supérieur droit de l’écran Notifications, avant de sélectionner Tout marquer comme lu.

Comment puis-je supprimer une notification intégrée à l’application?

Comment puis-je supprimer une notification?

Vous ne pouvez pas supprimer manuellement des notifications intégrées à l’application. Seules les 25 notifications les plus récentes qui ont été reçues s’afficheront à l’écran Notifications et les notifications plus anciennes seront supprimées automatiquement.

Pendant combien de temps les notifications intégrées à l’application sont-elles conservées?

Pendant combien de temps les notifications sont-elles conservées?

Il n’y a pas de limite de temps. Seules les 25 notifications les plus récentes qui ont été reçues s’afficheront à l’écran Notifications. Les notifications plus anciennes seront supprimées automatiquement.

Comment les notifications poussées diffèrent-elles des notifications intégrées à l’application?

Pendant combien de temps les notifications sont-elles conservées?

Les notifications intégrées à l’application vous aviseront des nouvelles publications seulement quand vous utilisez l’application StatsCAN tandis que les notifications poussées vous aviseront des nouvelles publications quand vous n’utilisez pas l’application StatsCAN.

Quel type de notifications poussées vais-je recevoir?

Pendant combien de temps les notifications sont-elles conservées?

Les notifications poussées que vous recevrez seront liées au sujet des nouvelles publications rendues accessibles.

Vous pouvez suivre des sujets qui vous intéressent en allant à la page Pour vous à l’écran Publications et en cliquant sur le bouton Choisir des sujets pour afficher la liste complète des sujets et choisir à partir de celle-ci.

À quelle fréquence vais-je recevoir des notifications poussées?

Pendant combien de temps les notifications sont-elles conservées?

Les notifications poussées sont envoyées deux fois par jour, à 10 h et à 16 h HNE.

Autre

Je veux informer mes amis et ma famille au sujet de StatsCAN. Puis-je partager l'application avec eux?

Je veux informer mes amis et ma famille au sujet de StatsCAN. Puis-je partager l'application avec eux?

Absolument. Pour partager l'application StatsCAN, allez à Paramètres > Soutien et rétroactions > Partager cette application.

Les options de partage de votre appareil s'afficheront au bas de l'écran. Vous pourrez ensuite choisir comment partager l'application au moyen de ces options.

Avec qui puis-je communiquer si j'ai des questions à propos de StatsCAN ou souhaite fournir une rétroaction sur l'application?

Avec qui puis-je communiquer si j'ai des questions à propos de StatsCAN ou souhaite fournir une rétroaction sur l'application?

Si vous souhaitez évaluer ou commenter publiquement l’application, vous pouvez le faire par l’intermédiaire de l’App Store ou Google Play.

Pour fournir une évaluation au moyen d’un appareil Apple, touchez l’icône de l’App Store. Allez ensuite à la page de l’application StatsCAN. Vous devez avoir téléchargé l’application pour pouvoir laisser un commentaire. Faites défiler la page de l’application jusqu’à la section Notes et avis et touchez Tout voir. Depuis la page Notes et avis, touchez les icônes en forme d’étoile pour évaluer l’application. Touchez le lien Rédiger un avis pour rédiger un commentaire. Touchez Envoyer.

Pour fournir une rétroaction au moyen d’un appareil Android, touchez l’icône du Play Store. Allez ensuite à la page des détails de l’application StatsCAN. Vous devez avoir téléchargé l’application pour pouvoir laisser un commentaire. Faites défiler la page jusqu’à la section Avis. Sélectionnez le nombre d’étoiles, et touchez Donnez votre avis. Suivez les directives figurant à l’écran pour rédiger un commentaire et ajouter des détails. Touchez Afficher.

Où puis-je trouver les conditions d'utilisation de StatsCAN lorsque je les ai acceptées?

Où puis-je trouver les conditions d'utilisation de StatsCAN lorsque je les ai acceptées?

Vous pouvez consulter les conditions d'utilisation à Paramètres > Plus d'information > Conditions d'utilisation.

Statistique Canada se réserve le droit de modifier ces conditions d'utilisation à sa seule discrétion. Il vous incombe d'en prendre connaissance de temps en temps. Toute modification aux conditions d'utilisation entrera en vigueur au moment de sa publication. Votre utilisation continue de l'application à la suite de la publication des conditions d'utilisation modifiées constitue votre acceptation de celles-ci.

Legacy Content

Utilisation responsable de l'apprentissage automatique à Statistique Canada

Par : Keven Bosa, Statistique Canada

De plus en plus de données sont générées au quotidien. On n'a qu'à penser aux données de téléphonie cellulaire, d'images satellites, de navigation sur internet ou de lecteur optique. La profusion de données fait grandir l'appétit de la population pour des statistiques nouvelles, plus détaillées et plus actuelles. Comme plusieurs autres organismes nationaux de statistique, Statistique Canada a adhéré à cette nouvelle réalité et utilise de plus en plus de sources de données alternatives afin d'améliorer et moderniser ses différents programmes statistiques. Étant donné leur volume et leur vélocité, des méthodes d'apprentissage automatique sont souvent nécessaires pour utiliser ces nouvelles sources de données.

Statistique Canada a mené plusieurs projets faisant appel à des méthodes d'apprentissage automatique au cours des trois dernières années. Par exemple, les scientifiques de données se sont servis du traitement de langage naturel pour attribuer une classe à des commentaires provenant de répondants au recensement ainsi qu'à d'autres enquêtes. Des méthodes d'apprentissage non supervisé ont été utilisées pour partitionner la base canadienne de données des coroners et des médecins légistes en groupes homogènes afin d'améliorer la compréhension de certains phénomènes. Un algorithme d'apprentissage supervisé a été développé pour prédire le rendement des cultures. Des projets utilisant des réseaux neuronaux sur des images satellites sont actuellement en cours pour optimiser le programme de l'agriculture. Dans un cas, l'objectif est de détecter la présence de serres alors que dans un autre cas, le but est d'identifier les différents types de grandes cultures. Un algorithme a aussi été élaboré pour extraire de l'information financière provenant de documents PDF. Les exemples précédents donnent une idée de la diversité des problèmes pour lesquels l'apprentissage automatique est utilisé.

L'utilisation de l'apprentissage automatique comprend son lot d'avantages : traitement des données volumineuses et non structurées, automatisation des processus en place, amélioration de la couverture et de la précision et bien d'autres. Toutefois, elle soulève aussi plusieurs questions. Par exemple :

  • Est-ce que le processus protège l'intégrité et la confidentialité des données?
  • Est-ce que la qualité des données d'entraînement est adéquate pour le but poursuivi?
  • Une fois l'algorithme mis en place, qui est responsable des résultats et des effets qui en découlent?

Suite à ces questions et à l'augmentation de l'utilisation de méthodes d'apprentissage automatique à Statistique Canada, la Direction des méthodes statistiques modernes et de la science des données a reconnu le besoin d'un cadre pour guider l'élaboration des processus d'apprentissage automatique et d'en faire des processus responsables.

Le Cadre pour l'utilisation des processus d'apprentissage automatique de façon responsable à Statistique Canada sera présenté dans cet article, puis sera suivi d'une brève explication du processus de revue mis en place pour l'appliquer. Finalement, cet article se conclura en proposant quelques réflexions et en mentionnant quelques travaux futurs.

Présentation du Cadre

Avant de présenter le cadre de travail dont s'est doté Statistique Canada, nous ferons un bref survol de la Directive sur la prise de décisions automatisée établie par le Secrétariat du conseil du trésor. Celle-ci a d'ailleurs fait l'objet d'un article présenté dans l'édition du mois de juin du bulletin. Il y est mentionné que : « La présente Directive a pour objet de veiller à ce que les systèmes décisionnels automatisés soient déployés d'une manière qui permet de réduire les risques pour les Canadiens et les institutions fédérales, et qui donne lieu à une prise de décisions plus efficace, exacte et conforme, qui peut être interprétée en vertu du droit canadien. » Il est aussi mentionné que la Directive « … s'applique à tout système, outil ou modèle statistique utilisé pour recommander ou prendre une décision administrative au sujet d'un client.». À Statistique Canada, tous les projets utilisant l'apprentissage automatique ou, de façon plus générale la modélisation, font partie d'un programme statistique dont le but n'est pas de prendre des décisions administratives sur un client, du moins, pas jusqu'à présent. Statistique Canada n'a donc pas encore eu à se conformer à cette Directive et à évaluer l'incidence de ces décisions à l'aide de l'Outil d'évaluation de l'incidence algorithmique. Toutefois, comme mentionné à la fin de la section précédente, Statistique Canada a été proactif en adoptant ce Cadre afin de s'assurer d'une utilisation responsable de l'apprentissage automatique au sein de l'agence.

La figure 1 donne un bon aperçu du Cadre pour l’utilisation des processus d’apprentissage automatique de façon responsable à Statistique Canada.

Cadre pour l'utilisation des processus d'apprentissage automatique de façon responsable

Description - Figure 1

Diagramme de flux circulaire décrivant les 4 concepts essentiels pour la production d'informations fiables à partir de processus d'apprentissage automatique responsables. À partir du haut à gauche et en se déplaçant dans le sens des aiguilles d'une montre :

Concept # 1: Respect des Personnes avec pour attributs : Valeur pour les Canadiens; Prévention des dommages; Équité et responsabilité.

Concept #2 : Application Rigoureuse avec pour attributs : Transparence; Reproductibilité du processus et des résultats.

Concept #3 : Méthodes Éprouvées avec pour attributs : Qualité des données d'apprentissage; Inférence valide; Modélisation rigoureuse et Explicabilité.

Concept #4 : Respect des Données avec pour attributs : Protection de la vie privée; Sécurité et Confidentialité.

Évaluation au moyen de l'auto-évaluation et de l'examen par les pairs, liste de vérification et production d'un rapport ou d'un tableau de bord.

Le cadre comprend des lignes directrices pour l'usage responsable de l'apprentissage automatique organisées en quatre thèmes : respect des personnes; respect des données; application rigoureuse; méthodes éprouvées. Les quatre thèmes mis en commun assurent l'utilisation éthique des algorithmes et des résultats de l'apprentissage automatique. Ces lignes directrices s'appliquent à tous les programmes et projets statistiques menés par Statistique Canada qui utilisent des algorithmes d'apprentissage automatique, particulièrement ceux mis en production. Cela comprend les algorithmes d'apprentissage supervisé et non supervisé.

Le thème respect des personnes est décrit à l'aide de quatre attributs.

  1. Le concept de valeur pour les Canadiens dans un contexte d'apprentissage automatique implique que son utilisation doit avoir une valeur ajoutée, que ce soit dans les produits eux-mêmes ou par une plus grande efficacité dans le processus de production.
  2. La prévention des préjudices nécessite d'être au courant des dangers potentiels et d'avoir un dialogue constructif avec les intervenants et les porte-paroles du milieu avant la mise en œuvre d'un projet d'apprentissage automatique.
  3. L'équité implique que le principe de la proportionnalité entre les moyens et les fins soit respecté, et qu'un équilibre soit maintenu entre des intérêts et des objectifs différents. L'équité veille à ce que les personnes et les groupes ne soient pas victimes de préjugés injustes, de discrimination ou de stigmatisation.
  4. L'imputabilité est l'obligation juridique et éthique d'une personne ou d'une organisation d'être responsable de son travail et de communiquer les résultats du travail de façon transparente. Les algorithmes ne sont pas responsables; quelqu'un est responsable des algorithmes.

Statistique Canada prend les données au sérieux. Le thème respect des données a trois attributs : la protection de la vie privée des personnes auxquelles les données appartiennent; la sécurité des renseignements tout au long du cycle de vie des données; et la confidentialité de renseignements identifiables.

  1. La vie privée est le droit de se retirer et de ne pas être sujet à une quelconque forme de surveillance ou d'intrusion. Lors de l'acquisition de renseignements de nature délicate, les gouvernements ont des obligations relativement à la collecte, à l'utilisation, à la divulgation et à la conservation des renseignements personnels. Le terme vie privée réfère généralement à des renseignements concernant des particuliers (définition tirée de Politique sur la protection des renseignements personnels et la confidentialité).
  2. La sécurité représente les dispositions fondées sur l'évaluation de la menace et des risques qu'utilisent les organisations pour empêcher l'obtention ou la divulgation inadéquate de renseignements confidentiels. Les mesures de sécurité protègent aussi l'intégrité, la disponibilité et la valeur des fonds de renseignements. Cela englobe les protections matérielles, comme l'accès restreint aux zones où les renseignements sont entreposés et utilisés ou les autorisations de sécurité des employés, ainsi que les protections technologiques utilisées pour empêcher l'accès électronique non autorisé (définition tirée de la Politique sur la protection des renseignements personnels et la confidentialité).
  3. La confidentialité fait référence à la protection contre la divulgation de renseignements personnels identifiables concernant une personne, une entreprise ou une organisation. La confidentialité suppose une relation de « confiance » entre le fournisseur de renseignements et l'organisation qui les recueille; cette relation s'appuie sur l'assurance que ces renseignements ne seront pas divulgués sans l'autorisation de la personne ou sans l'autorité législative appropriée (définition tirée de la Politique sur la protection des renseignements personnels et la confidentialité).

Une application rigoureuse signifie de mettre en place, de maintenir et de documenter les processus d'apprentissage automatique de façon à ce que les résultats soient toujours fiables et que l'ensemble du processus puisse être compris et recréé. Ce thème a deux attributs : la transparence et la reproductibilité du processus et des résultats.

  1. La transparence fait référence au fait d'avoir une justification claire de la raison pour laquelle cet algorithme et les données d'apprentissage sont les plus appropriés pour l'étude en cours. Pour être transparents, les développeurs devraient produire une documentation complète, y compris rendre accessible le code informatique à d'autres personnes, et ce, sans compromettre la confidentialité ou la protection des renseignements personnels.
  2. La reproductibilité du processus signifie qu'il y a suffisamment de documentation et que le code informatique a été suffisamment partagé pour faire en sorte que le processus soit reproduit, à partir de rien. La reproductibilité des résultats signifie que les mêmes résultats peuvent être reproduits de façon fiable lorsque toutes les conditions sont contrôlées. Il n'y a pas d'étapes qui modifient les résultats à la suite d'une intervention ponctuelle ou humaine.

Les méthodes éprouvées sont celles qui peuvent être invoquées de manière efficace et efficiente afin de produire les résultats espérés. Statistique Canada suit habituellement des protocoles reconnus qui comportent une consultation avec des pairs et des experts, de la documentation et des tests lorsque nous élaborons des méthodes éprouvées. Ce thème a quatre attributs : la qualité des données d'apprentissage; l'inférence valide; la modélisation rigoureuse; l'explicabilité.

  1. Dans un contexte d'apprentissage automatique, la qualité des données d'apprentissage est mesurée par la cohérence et l'exactitude des données étiquetées. La couverture, ce qui signifie que les étiquettes et les descriptions couvrent tous les cas auxquels l'algorithme peut faire face dans la production, est également importante pour réduire le risque de partialité ou de discrimination (équité). La couverture est également importante pour assurer la représentativité des variables, ce qui est important lorsqu'on veut obtenir des mesures de rendement réalistes.
  2. Une inférence valide désigne la capacité d'obtenir, à partir d'un échantillon, des conclusions plausibles et d'une précision connue de la population cible. Dans un contexte d'apprentissage automatique, une conclusion valable signifie que les prédictions à partir de données tests (jamais utilisées pour la modélisation) doivent être, dans une grande proportion, raisonnablement près de leurs vraies valeurs ou, dans le cas de données catégoriques, les prédictions sont exactes dans une grande proportion.
  3. Une modélisation rigoureuse en apprentissage automatique consiste à s'assurer que les algorithmes sont vérifiés et validés. Cela permettra aux utilisateurs et aux décideurs de faire confiance à l'algorithme à juste titre du point de vue de l'adaptation des données à leur utilisation, de la fiabilité et de la robustesse.
  4. Un modèle qui est explicable est un modèle qui est suffisamment documenté. Les documents doivent expliquer clairement de quelle façon les résultats devraient être utilisés et permettre de déterminer quelles conclusions on peut tirer ou encore ce qui devrait être exploré plus en profondeur. En d'autres mots, un modèle explicable n'est pas une boîte noire.

Processus de revue

Le processus de revue constitue la mise en œuvre du Cadre. L'accent est mis sur les projets ayant des visées pour l'utilisation de méthodes d'apprentissage automatique dans une ou plusieurs étapes menant à la production de statistiques officielles. Le processus comprend trois étapes : l'auto-évaluation à l'aide de la liste de contrôle; l'évaluation par des pairs; une présentation du projet au comité d'examen scientifique de la Direction des méthodes statistiques modernes et de la science des données.

Dans un premier temps, l'équipe ayant développé le projet à l'aide de méthodes d'apprentissage automatique devra faire une auto-évaluation concernant l'utilisation de ces techniques. Pour se faire, l'équipe devra prendre connaissance du Cadre et répondre aux questions présentes dans la liste de contrôle. La liste de contrôle prend la forme d'un questionnaire où, de façon générale, chaque ligne directrice du Cadre est reformulée sous forme d'une ou plusieurs questions. Par la suite, ce questionnaire et la documentation du projet et des méthodes utilisées sont envoyés à l'équipe de revue.

L'évaluation par les pairs peut maintenant débuter. Des réviseurs provenant de deux équipes différentes seront impliqués. Les questions et la documentation concernant les deux premiers thèmes du Cadre, respect des personnes et respect des données, seront évaluées par l'équipe du Secrétariat de l'éthique des données alors que la partie concernant les deux derniers thèmes, application rigoureuse et méthodes éprouvées, sera évaluée par une équipe de la section des méthodes et de la qualité en science des données. À la fin de cette évaluation, un rapport contenant des recommandations sera envoyé au gestionnaire du projet.

La dernière étape du processus de revue est la présentation du projet au comité d'examen scientifique de la Direction des méthodes statistiques modernes et de la science des données. Cette présentation expose la méthodologie utilisée lors du processus d'apprentissage automatique devant un comité d'experts. Le rôle de ce comité est de remettre en question la méthodologie notamment en identifiant certaines lacunes ou problèmes potentiels et en proposant des améliorations et des corrections. Ultimement, ce comité recommandera ou non la mise en œuvre de la méthodologie proposée dans le contexte de production de statistiques officielles.

Et après?

Est-ce la fin de l'histoire? Non, en fait c'est plutôt le début. De nouvelles sources de données et méthodes d'apprentissage automatique émergent pratiquement chaque jour. Afin de demeurer pertinent, le Cadre présenté dans cet article devra être fréquemment adapté et révisé pour tenir compte des nouveaux enjeux d'éthique et de qualité. Statistique Canada continue à appliquer ce Cadre aux processus qui utilisent l'apprentissage automatique et est à l'affût d'applications où la Directive sur la prise de décisions automatisée pourrait s'appliquer. L'agence va constituer un registre de toutes les applications qui ont passé ce processus de revue pour pouvoir y référer facilement. Et vous, faites-vous face à des questions concernant l'utilisation responsable de certaines méthodes d'apprentissage automatique? Avez-vous déjà appliqué la Directive du Secrétariat du Conseil du trésor et avez-vous déjà dû obtenir une évaluation indépendante d'une de vos applications? À Statistique Canada nous avons déjà fait ce genre de revue pour un autre ministère à l'aide du Cadre discuté dans cet article et sommes disponibles pour faire d'autres revues si le besoin se présente. Veuillez contacter statcan.dscd-ml-review-dscd-revue-aa.statcan@statcan.gc.ca.

Date de modification :
Legacy Content

Enquête canadienne sur la santé et les anticorps contre la COVID-19
Anticorps contre la COVID-19 : Foire aux questions

  • 1. Que signifient les résultats?

    1. Que signifient les résultats?

    Test de la tache de sang séché

    Positif — vous avez probablement été exposé au virus de la COVID-19 ou vous avez reçu le vaccin, et votre corps a produit des anticorps contre le virus.
    Négatif — aucune trace d'anticorps contre le virus de la COVID-19 n'a été trouvée dans votre sang.
    Peu concluant — le résultat de votre test ne nous permet pas de déterminer si vous avez des anticorps ou non contre le virus de la COVID-19. Un problème est peut-être survenu avec le test.

    PCR Test de salive

    Positif - L'ARN spécifique du virus SARS-CoV-2 responsable de l'infection par le COVID-19 a été détecté dans votre échantillon de salive.
    Négatif - L'ARN spécifique du virus SRAS-CoV-2 responsable de l'infection par le COVID-19 n'a pas été détecté dans votre salive.
    Non concluant - Le résultat de votre test ne nous permet pas de savoir si vous avez ou non de l'ARN spécifique du virus SRAS-CoV-2 responsable de l'infection par le COVID-19 dans votre salive. Cela peut être dû à un problème avec le test.

    Si vous avez des questions sur les résultats de votre test(s), veuillez-vous adresser à votre prestataire de soins de santé.

  • 2. Si le résultat de mon test d'anticorps contre la COVID-19 et/ou PCR-salive est positif, dois-je faire quelque chose?

    2. Si le résultat de mon test d'anticorps contre la COVID-19 et/ou PCR-salive est positif, dois-je faire quelque chose?

    Test de la tache de sang séché 

    Non, vous n'avez rien à faire. Un résultat positif vous informe d'une infection qui s'est produite dans le passé ou que vous avez reçu le vaccin. Cela ne signifie pas que vous êtes infecté en ce moment. Veuillez continuer à respecter les mesures de santé publique.

    Test PCR salive
    - Un résultat positif vous informe d'une infection active par le COVID-19 au moment où vous avez fourni votre échantillon de salive. Même si vous avez obtenu un résultat négatif au test de dépistage du virus SRAS-CoV-2 qui cause l'infection par le COVID-19, vous devez suivre toutes les recommandations de la Santé publique sur la façon de vous protéger et de protéger les autres.

  • 3. Quel est le degré de précision du test de la tache de sang séché?

    3. Quel est le degré de précision du test de la tache de sang séché?

    D'après notre expérience des tests effectués jusqu'à présent, les résultats positifs sont corrects environ 95 % du temps. Les résultats négatifs, quant à eux, sont corrects environ 99 % du temps. Aucun test de laboratoire n'est parfait.

  • 4. Quel est l'avantage des anticorps contre la COVID-19?

    4. Quel est l'avantage des anticorps contre la COVID-19?

    À l'heure actuelle, nous en savons très peu sur les avantages des anticorps contre le virus de la COVID-19. Les experts ne sont pas sûrs de la durée de vie des anticorps ni de leur capacité à offrir une protection (immunité) contre les futures infections par la COVID-19. Les efforts de recherche dans le monde entier, y compris cette étude, cherchent à comprendre ces questions sur l'immunité.

    Veuillez continuer à suivre toutes les recommandations de la santé publique, même si vous avez des anticorps contre le virus de la COVID-19. Cela vous aidera à assurer votre propre sécurité et celle des autres.

  • 5. Si j'ai des anticorps, puis-je contracter de nouveau la COVID-19?

    5. Si j'ai des anticorps, puis-je contracter de nouveau la COVID-19?

    Nous ne le savons pas encore. Les anticorps ne protègent pas toujours les gens contre de nouvelles infections. Des recherches supplémentaires sont menées dans le monde entier pour tenter de répondre à ces questions.

  • 6. Pourquoi certaines personnes ont-elles un test positif de la tache de sang séché et d'autres, un test négatif de la tache de sang séché?

    6. Pourquoi certaines personnes ont-elles un test positif de la tache de sang séché et d'autres, un test négatif de la tache de sang séché?

    Certaines personnes peuvent être plus susceptibles d'être infectées que d'autres. Cela peut dépendre de la quantité de virus à laquelle elles ont été exposées. Les personnes infectées peuvent produire différentes quantités d'anticorps. Si une personne en produit peu, il se peut que le test ne puisse pas les détecter. Le fait qu'une personne infectée présente des symptômes ou non dépend de son âge, des problèmes de santé sous-jacents et d'autres facteurs que nous tentons de mieux comprendre.

  • 7. Qu'est-ce que cela signifie si j'ai été testé positif au COVID-19 par le test PCR de salive mais que mon test d'anticorps est négatif ?

    7. Qu'est-ce que cela signifie si j'ai été testé positif au COVID-19 par le test PCR de salive mais que mon test d'anticorps est négatif ?

    Chaque personne produit différentes quantités d'anticorps. Si vous avez obtenu un résultat positif au test de la salive PCR, mais que le test d'anticorps est négatif, vous n'avez peut-être pas produit beaucoup d'anticorps contre l'infection. Cela ne signifie pas que le résultat de votre test de la salive PCR était erroné.

  • 8. Qu'est-ce que cela signifie si mon test PCR salivaire est négatif mais que mon test d'anticorps est positif ?

    8. Qu'est-ce que cela signifie si mon test PCR salivaire est négatif mais que mon test d'anticorps est positif ?

    Le test PCR de salive peut avoir été effectué alors que le virus n'était pas présent dans votre salive, de sorte que le virus n'a pas été détecté. Un résultat positif au test d'anticorps montre que vous avez été exposé au virus ou que vous avez reçu le vaccin, et que votre organisme a fabriqué des anticorps. Il ne vous renseigne pas sur la façon dont le virus vous a affecté.9. Que dois-je faire si j'ai des questions sur les résultats de mes tests?

  • 9. Que dois-je faire si j'ai des questions sur les résultats de mes tests?

    9. Que dois-je faire si j'ai des questions sur les résultats de mes tests?

    Si vous avez des questions ou des préoccupations concernant les résultats de vos tests, nous vous recommandons de vous adresser à votre prestataire de soins de santé.

  • 10. Dois-je quand même me faire vacciner si j'ai obtenu un résultat positif au test d'anticorps contre la COVID-19?

    10. Dois-je quand même me faire vacciner si j'ai obtenu un résultat positif au test d'anticorps contre la COVID-19?

    Oui. Les personnes qui ont obtenu un résultat positif au test d'anticorps contre la COVID-19 doivent quand même être vaccinées. À l'heure actuelle, les experts ne savent pas combien de temps une personne peut être protégée contre une réinfection après s'être rétablie de la COVID-19.

  • 11. J'ai reçu mon vaccin mais mon résultat du test d'anticorps est négatif. Qu'est-ce que cela peut signifier?

    11. J'ai reçu mon vaccin mais mon résultat du test d'anticorps est négatif. Qu'est-ce que cela peut signifier?

    Cela peut signifier que vous avez reçu votre vaccin après avoir fait votre prélèvement de gouttes de sang séché, ou que vous avez fait le prélèvement peu après avoir reçu le vaccin, ne donnant pas assez de temps à votre corps de produire une quantité suffisante d'anticorps pour être détecté par le test. Ce sont deux possibilités, parmi d'autres.

  • 12. Où puis-je trouver plus de renseignements sur l'Enquête canadienne sur la santé et les anticorps contre la COVID-19 (ECSAC)?

    12. Où puis-je trouver plus de renseignements sur l'Enquête canadienne sur la santé et les anticorps contre la COVID-19 (ECSAC)?

    Pour plus de renseignements sur l'ECSAC, veuillez consulter notre site Web à Enquête canadienne sur la santé et les anticorps contre la COVID-19 (ECSAC).

  • 13. Les participants peuvent-ils retirer leur consentement à la conservation de leurs biospécimens dans la Biobanque ?

    13. Les participants peuvent-ils retirer leur consentement à la conservation de leurs biospécimens dans la Biobanque ?

    Oui. Lors du prélèvement des échantillons, il est demandé aux participants s'ils consentent au stockage de leurs échantillons. À tout moment, pendant ou après la soumission des échantillons, les participants peuvent demander que leurs échantillons soient retirés du stockage et détruits en appelant le 1-888-253-1087, ou par courriel à statcan.biobankinfo-infobiobanque.statcan@statcan.gc.ca.

  • 14. Quel type d'analyses sont effectuées sur les échantillons stockés à la Biobanque ?

    14. Quel type d'analyses sont effectuées sur les échantillons stockés à la Biobanque ?

    Les échantillons conservés à la Biobanque de Statistique Canada sont utilisés dans des études sur la santé. Les études sur la santé comprennent :

    • La recherche d'expositions passées à de nouveaux contaminants environnementaux.
    • Nouvelles façons de surveiller la nutrition humaine
    • La prévalence passée des maladies infectieuses, la découverte et la validation de nouveaux biomarqueurs pour diagnostiquer les maladies.
    • La recherche génétique pour évaluer l'état de santé et la susceptibilité des Canadiens aux maladies, aux infections ou aux expositions aux contaminants environnementaux.
  • 15. Mes échantillons de sang séché et de salive seront-ils utilisés pour des tests génétiques?

    15. Mes échantillons de sang séché et de salive seront-ils utilisés pour des tests génétiques ?

    Oui, il est possible que votre échantillon soit utilisé pour des tests génétiques. Les tests génétiques peuvent inclure des études d'association à l'échelle du génome ou le génotypage.

    Deux projets de la Biobanque ont utilisé les informations génétiques des échantillons de la Biobanque pour établir un lien entre les données génétiques et l'état de santé. Le premier projet, réalisé par l'Agence de la santé publique du Canada, a examiné comment les différences dans le code génétique entre les Canadiens pouvaient influencer la façon dont ces derniers absorbent les nutriments. Le deuxième projet, en cours à l'Université McGill, vise à déterminer comment les différences dans le code génétique influencent les résultats de santé après une exposition à des contaminants environnementaux et à des métaux.

    En aucun cas, Statistique Canada ne divulguera votre génome au public. Statistique Canada, ou tout autre ministère fédéral qui respecte la Loi sur la protection des renseignements personnels du Canada, ne permettrait jamais que votre ADN soit utilisé de cette façon.

    Il est possible de retirer son consentement à des tests génétiques tout en conservant ses échantillons dans la Biobanque de Statistique Canada pour d'autres projets. Un participant peut retirer son consentement en tout temps en utilisant les coordonnées qui se trouvent ici : Participants de la biobanque.

  • 16. Combien de temps garderez-vous mes échantillons ?

    16. Combien de temps garderez-vous mes échantillons ?

    Les échantillons sont conservés dans la Biobanque de Statistique Canada jusqu'à ce qu'ils ne soient plus scientifiquement viables. Les échantillons sont retirés lorsqu'ils sont utilisés pour un projet de recherche approuvé ou lorsqu'un participant demande que ses échantillons soient retirés et détruit.

  • 17. Où puis-je obtenir plus d'informations sur la Biobanque?

    17. Où puis-je obtenir plus d'informations sur la Biobanque?

    Des renseignements supplémentaires, comme la description des études approuvées de la Biobanque, sont affichés sur la page Web de la Biobanque. Vous pouvez également accéder au site Web en entrant " Biobanque de Statistique Canada " dans votre moteur de recherche préféré.

Date de modification :
Legacy Content

Modélisation thématique et modélisation thématique dynamique : Une revue technique

Par : Loic Muhirwa, Statistique Canada

Dans le sous-domaine de l'apprentissage automatique du traitement du langage naturel (TLN), un modèle thématique (topic modeling) est un type de modèle non supervisé servant à découvrir des sujets abstraits dans un corpus. La modélisation thématique peut être considérée comme une sorte de regroupement flou (soft clustering) de documents au sein d'un corpus. La modélisation thématique dynamique désigne l'introduction d'une dimension temporelle dans une analyse de modélisation thématique. L'aspect dynamique de la modélisation thématique est un domaine de recherche en pleine croissance et auquel de nombreuses applications ont recours, y compris l'analyse sémantique de séries chronologiques, la classification sans supervision de documents et la détection d'événements. Dans le cas de la détection d'événements, si la structure sémantique d'un corpus représente un phénomène du monde réel, un changement significatif dans cette structure sémantique peut être utilisé pour représenter et détecter des événements du monde réel. À cette fin, l'article présente les aspects techniques d'une nouvelle méthode bayésienne de modélisation thématique dynamique dans le contexte des problèmes de détection d'événements.

Dans le contexte d'une preuve de concept, un système de modélisation thématique dynamique a été conçu, mis en œuvre et déployé à l'aide de la Base canadienne de données des coroners et des médecins légistes (BCDCML), une nouvelle base de données élaborée à Statistique Canada en collaboration avec les 13 coroners en chef provinciaux et territoriaux, les médecins légistes en chef et l'Agence de la santé publique du Canada. La BCDCML contient des renseignements normalisés sur les circonstances des décès déclarés aux coroners et aux médecins légistes au Canada. En particulier, la BCDCML contient des données non structurées sous forme de variables en texte libre, appelées textes narratifs, qui fournissent des renseignements détaillés sur les circonstances entourant les décès déclarés. L'ensemble des textes narratifs forme un corpus (une collection de documents) adapté à l'exploration de texte, ce qui soulève la question suivante : les techniques d'apprentissage automatique peuvent-elles servir à découvrir des structures sémantiques utiles et nouvelles ? Et dans l'affirmative, peut-on analyser ces structures sémantiques dynamiquement (dans le temps) pour détecter les textes narratifs émergeants sur les décès?

Les premiers résultats sont prometteurs. L'étape suivante comporte deux volets, à savoir : premièrement, régler plus précisément le système et la construction de la détection d'événements et, deuxièmement, étant donné que ce système servira à aider les analystes à réaliser des études et des recherches sur la BCDCML, les renseignements qui en découleront devront être interprétables par l'être humain. Le présent article donne un aperçu technique de la méthodologie sur laquelle repose la modélisation thématique, explique la base de l'allocation de Dirichlet latente et introduit une dimension temporelle dans l'analyse de la modélisation thématique. Un futur article présentera l'application de ces techniques à la BCDCML.

Allocation de Dirichlet latente

L'allocation de Dirichlet latente (ou LDA pour Latent Dirichlet Allocation)Note de bas de page 1 est un exemple de modèle thématique couramment utilisé par la communauté de l'apprentissage automatique. En raison des performances des modèles de LDA, on en retrouve plusieurs implantations en production dans des langages populaires de script orientés données comme PythonNote de bas de page 2. L'allocation de Dirichlet latente a d'abord été introduite comme une généralisation de l'analyse sémantique latente probabiliste (PLSA pour Probabilistic Latent Semantic Analysis)Note de bas de page 3 présentant d'importantes améliorations, dont l'une était entièrement générativeNote de bas de page 4.

Le modèle

La LDA est considérée comme un modèle génératif, car la distribution conjointe (produit de la vraisemblance par la loi a priori) est explicitement définie, ce qui permet de générer des documents simplement en échantillonnant à partir de la distribution. Les hypothèses du modèle sont clairement démontrées par l’examen du processus générateur qui décrit la façon dont chaque mot d’un document donné est généré.

En termes formels, supposons que T ,   V N sont respectivement le nombre de sujets et la taille de l’ensemble de notre vocabulaire. Le vocabulaire fait référence à l’ensemble de tous les termes utilisés pour produire les documents. De plus, supposons que θ R T et ϕ R V sont des vecteurs représentant des distributions discrètes sur les sujets et le vocabulaire respectivement. Dans une LDA, un document est représenté par une distribution de sujets distincte et un sujet est représenté par une distribution de mots distincte. Soit w0,1V un vecteur one-hot représentant un mot particulier dans le vocabulaire et z0,1T un vecteur one-hot représentant un sujet particulier.

Les notations θ et ϕ peuvent servir à décrire le processus génératif qui génère un mot dans un document en échantillonnant à partir d'une distribution de sujets et d’une distribution de mots. La LDA suppose que ces distributions sont tirées de distributions de Dirichlet, à savoir θ~Dirα et ϕ~Dirβ, où α  et β sont les paramètres de l’absence de densité. Ensuite, au moyen de ces distributions, on tire d’abord un sujet z~Multinomialθ, puis à partir de ce sujet, on tire un mot w~Multinomialϕ. En d’autres termes, les mots d’un document sont échantillonnés à partir d’une distribution de mots régie par une distribution de sujets fixe représentant ce document. La Figure 1 démontre ce processus de génération en notation de plaque graphique, pour un corpus de taille M avec des documents de taille fixe N. Bien qu’on suppose généralement que la taille du document provienne d’un processus de Poisson indépendant, pour le moment, à des fins de simplification de la notation, on suppose sans perte de généralité que les documents sont de taille fixe.

Notation de plaque du processus génératif. Les cases sont des « plaques » représentant des répliques et les nœuds ombrés sont observés.
Description de la figure 1 - Notation de plaque du processus génératif. Les cases sont des « plaques » représentant des répliques et les nœuds ombrés sont observés.

Illustration du processus génératif de LDA en notation de plaque. Le diagramme est composé d’un graphique acyclique dirigé, où les nœuds représentent des variables et les arêtes représentent des dépendances variables. Les nœuds externes du graphique dirigé sont les hyperparamètres du modèle et ces nœuds n’ont pas d’arêtes intérieures, ce qui signifie qu’ils ne dépendent d’aucun autre paramètre du modèle. À partir des hyperparamètres, les arêtes conduisent aux autres variables jusqu’à ce qu’elles atteignent un nœud final, représentant un mot. À une extrémité, le nœud d’hyperparamètres de sujet mène à un nœud de distribution de mot, qui mène finalement au nœud de mot. À partir d’une autre extrémité, l’hyperparamètre du document, mène à un nœud de distribution de sujet, qui mène à un nœud d’affectation de mot-sujet, puis au nœud de mot. Ce nœud de mot est ombré et il s'agit du seul nœud ombré. L’ombrage indique que le nœud en question représente une variable observée, ce qui signifie que tous les autres nœuds du graphique ne sont pas observés. Certains nœuds sont contenus dans une case rectangulaire comportant une variable dans son coin inférieur droit. Les cases représentent les répétitions, et la variable en bas à droite représente la taille de la répétition. Le nœud de distribution de mot est contenu dans une case avec un nombre variable de répétitions, T. L’affectation mot-sujet et les nœuds de mot sont contenus dans une case avec un nombre variable de répétitions, N. Cette dernière est ensuite contenue dans une case plus grande qui comprend le nœud de distribution de sujet avec un nombre variable de répétitions, M. Puisque l’affectation mot-sujet et les nœuds de mot sont contenus dans deux cases, ces deux variables ont un nombre de répétitions égal au produit de la variable se trouvant dans le coin inférieur droit des deux cases, en l'occurrence N fois M.

Tableau 1 : Notation
Variable Description
D Un ensemble représentant tous les documents bruts, c'est-à-dire le corpus
T Nombre de sujets
V Nombre de mots dans le vocabulaire
θi Distribution de sujets représentant le ie document; il s'agit d'un vecteur dense RT
Nj Nombre de mots dans le je document
θt Distribution de mots représentant le te sujet; il s'agit d'un vecteur dense RV
Zij Affectation de sujet pour le ie mot dans le je document; il s'agit d'un vecteur one-hot RT
wij Affectation du vocabulaire pour le ie mot dans le je document; il s'agit d'un vecteur one-hot RV
β Paramètre de l'absence de densité de Dirichlet pour les sujets
α Paramètre de l'absence de densité de Dirichlet pour les documents

Soit Z un ensemble représentant l’ensemble de toutes les affectations de sujets, il s'agit d’un ensemble de taille j|D|·Nj et soit θ un ensemble représentant l’ensemble de toutes les distributions de sujets (documents) et enfin, soit ΦRV×RT une matrice aléatoire représentant l’ensemble de toutes les distributions de mots (sujets), c.-à-d. ϕ=[ϕ1,...,ϕT]. Il s’ensuit que si la te entrée d’un sujet donné, par exemple zij est 1, alors :

Équation 1 : ϕt=Φ·zij

D'après la notation ci-dessus, la distribution conjointe peut être définie comme suit :

Équation 2 : p(W,Z,Θ,Φ|α,β)=p(Φ|β)j=1|D|p(θj|α)i=1Njp(zij|θj)p(wij|Φ,zij)

Étant donné que l’une des hypothèses du modèle est que les distributions de sujets sont conditionnellement indépendantes par rapprt à β, la forme suivante est équivalente :

Équation 3 : p(W,Z,Θ,Φ|α,β)=t=1Tp(ϕt|β)j=1|D|p(θj|α)i=1Njp(zij|θj)p(wij|Φ·zij)

Maintenant que le modèle est spécifié, le processus de génération peut sembler plus clair en pseudo-code. D’après la distribution conjointe, le processus génératif se déroule comme suit :

Étant donné : V, T, |D|,α,β
pour t[1,...,T ]  effectuer
ϕt~Dir(β)
fin
Φ[ϕ1,...,ϕT]
pour j[1,...,|D|] effectuer
θj~Dir(α)
pour i[1,...,Nj] effectuer
zij~Mutinomial(θj)
wij~Mutinomial(Φzij)
fin
fin

Notons que T, le nombre de sujets, est fixe et que le fait d’être fixe est en fait une hypothèse et une exigence du modèle; cela implique également, dans le contexte bayésien, que T est un paramètre du modèle et non pas une variable latente. Cette différence est loin d’être négligeable, comme le montre la section sur l’inférence.

Il est important de distinguer l’allocation de Dirichlet latente d’un simple modèle de groupement Dirichlet-multinomial. Un modèle de groupement Dirichlet-multinomial comporterait un modèle à deux niveaux dans lequel on échantillonne un Dirichlet une fois pour un corpus, une variable de groupement multinomiale est sélectionnée une fois pour chaque document dans le corpus, et un ensemble de mots est sélectionné pour le document, conditionnel à la variable de groupement. Comme dans de nombreux modèles de groupement, un tel modèle restreint le document à être associé à un seul sujet. En revanche, la LDA comporte trois niveaux et, notamment, le nœud de sujet est échantillonné de façon répétée dans le document. Selon ce modèle, les documents peuvent être associés à plusieurs sujetsNote de bas de page 1.

Inférence

L’inférence avec la LDA équivaut à une ingénierie inverse du processus génératif décrit dans la section précédente. Quand le processus génératif passe d’un sujet à un mot, l’inférence a posteriori ira donc d’un mot à un sujet. Avec la LDA, nous supposons que Θ,Φ et Z sont des variables latentes plutôt que des paramètres de modèle. Cette différence a des conséquences drastiques sur la façon dont les quantités d’intérêt sont inférées, celles-ci étant les distributions Θ et Φ. En revanche, si Θ et Φ étaient modélisées comme des paramètres, on pourrait utiliser l’algorithme espérance-maximisation (EM) pour trouver l’estimation du maximum de vraisemblance (EMV). Après la convergence de l’algorithme EM, on récupère les paramètres appris pour atteindre l’objectif consistant à trouver les sujets abstraits dans le corpus. L'algorithme EM fournit des estimations ponctuelles du paramètre du modèle en marginalisant les variables latentes. Le problème est que les quantités d’intérêt sont marginalisées et que l’estimation ponctuelle ne serait pas fidèle à la méthode de l’inférence bayésienne. Pour une véritable inférence bayésienne, l’accès à la distribution a posteriori des variables latentes Θ,Φ et Z serait nécessaire. Ensuite, cette distribution a posteriori est examinée et quelques difficultés de calcul qui contribueront à motiver une approche d’inférence seront soulignées.

La distribution a posteriori est de la forme suivante :

Équation 4 : p(Z,Θ,Φ|W,α,β)=p(W,Z,Θ,Φ| α,β)p(W| α,β)

Penchons-nous de plus près sur le dénominateur :

Équation 5 : p(W|α,β)=Φp(Φ|β)Θp(Θ|α)Zp(Z|Θ)p(W|Z,Φ)dΘdΦ

L’équation (5) est connue sous le nom de preuve et agit comme une constante de normalisation. Pour calculer la preuve, il faut calculer une intégrale de grande dimension sur la probabilité conjointe. Comme le montre l’équation (5), le couplage de Θ et Φ les rend inséparables dans la sommation et, par conséquent, cette intégrale est au moins exponentielle dans dim(Θ)×dim(Φ), ce qui la rend insoluble. L'insolvabilité de l’intégrale de la preuve est un problème courant de l’inférence bayésienne, qu’on appelle problème d’inférenceNote de bas de page 1. L’inférence et la mise en œuvre de la LDA diffèrent dans la façon dont elles résolvent ce problème.

Inférence variationnelle

Dans l'apprentissage automatique moderne, l'inférence (bayésienne) variationnelle (IV) sert le plus souvent à déduire la distribution conditionnelle sur les variables latentes compte tenu des observations et des paramètres. C'est aussi ce qu'on appelle la distribution a posteriori sur les variables latentes (équation (2)). À un niveau élevé, l'IV est simple : l'objectif est d'obtenir une approximation de la distribution a posteriori insoluble avec une distribution qui provient d'une famille de distributions tractables. Cette famille de distributions tractables est ce qu'on appelle les distributions variationnelles (à partir du calcul variationnel). Une fois que la famille de distributions est spécifiée, on obtient une approximation de la distribution a posteriori en trouvant la distribution variationnelle qui optimise une certaine mesure entre elle-même et la distribution a posteriori. Une des mesures servant couramment à mesurer la similarité entre deux distributions est la divergence de Kullback-Leibler (KL) qui est définie comme suit :

Équation 6 : KL(q||p)=Ezlogq(z)p(z|x)=zq(z)logq(z)p(z|x)

q(·) et p(·) sont les distributions de probabilité sur le même support. Dans l’article original sur l’allocation de Dirichlet latenteNote de bas de page 1, les auteurs proposent une famille de distributions ayant la forme suivante :

Équation 7 : q(W,Z,Θ,Φ|λ,π,γ)=t=1TDir(ϕt|λt)j=1|D|Dir(θj|γj)i=1NjMulti(zij|πij)

λ,π et γ sont des paramètres variationnels libres. Cette famille de distributions est obtenue par découplage de Θ et Φ (ce couplage est ce qui a mené à l’insolvabilité), ce qui rend les variables latentes conditionnellement indépendantes sur les paramètres variationnels. Ainsi, l’inférence approximative est réduite au problème d’optimisation déterministe suivant :

Équation 8 : λ*,π*,γ*=argminλ,π,γ KL(q||p)

p est la distribution a posteriori d’intérêt et dont l’approximation finale est obtenue par :

Équation 9 : q(W,Z,Θ,Φ|λ*,π*,γ*)

Dans le contexte du problème, le problème d’optimisation de l’équation (8) est mal posé puisqu’il nécessite p(·) et que l’approximation de p(·) est le problème d’inférence initial. Il est facile de démontrer ce qui suit :

Équation 10 : Ezlogp(z,x)q(z)=-KL(q||p)+logp(x)

Équation 11 : Soit   L=Ezlogp(z,x)q(z) 

L est appelée ELBO (Evidence Lower Bound, borne inférieure de la preuve) et bien qu’elle dépende de la vraisemblance, elle n'a pas de p(·) et est donc tractable. Par conséquent, le problème d’optimisation de l’équation (8) équivaut au problème d’optimisation suivant :

Équation 12 : λ*,π*,γ*=argmaxλ,π,γL

Ainsi, l’inférence dans la LDA maximise l’ELBO sur une famille de distributions tractables pour donner une approximation de la distribution a posteriori. En général, on met en œuvre une méthode d’optimisation stochastique pour surmonter la complexité du calcul, en particulier la méthode de descente par coordonnée stochastique. De plus amples détails sur l’analyse de l’IV sont fournis dansNote de bas de page 1, les sections 5.2, 5.3 et 5.4 deNote de bas de page 1 et la section 4 deNote de bas de page 4.

Modélisation thématique dynamique

La modélisation thématique dynamique désigne l’introduction d’une dimension temporelle dans une analyse de modélisation thématique. En particulier, la modélisation thématique dynamique dans le cadre du présent projet fait référence à l’étude de l’évolution dans le temps de sujets donnés. Le projet vise à analyser des sujets fixes sur un intervalle de temps donné. Étant donné que les documents provenant de la BCDCML ont une estampille temporelle naturelle, à savoir la date du décès (DDD), ils constituent un moyen canonique de diviser l’ensemble de données complet en plusieurs corpus couvrant chacun un intervalle de temps. Une fois les données divisées, on peut appliquer la LDA à chaque corpus. Il est ensuite possible d’analyser l’évolution de chaque sujet dans le temps.

L’un des défis de cette méthode dynamique réside dans la mise en correspondance de sujets à partir de deux fenêtres de temps adjacentes. En raison de la nature stochastique du problème d’optimisation à l’étape de l’inférence, chaque fois qu’une instance de la LDA est exécutée, l’ordre des sujets abstraits qui en résultent est aléatoire. Plus précisément, si l'on a deux fenêtres de temps adjacentes indexées par t et t-1 et un sujet fixe indexé par i, comment peut-on s’assurer que le ie sujet au temps t donné correspond au ie sujet au temps t-1? Pour répondre à cette question, il est possible de construire des lois a priori de sujets pour le temps t en utilisant les paramètres de sujets appris lors du temps t-1. Pour mieux comprendre le mécanisme, le terme « a priori » renvoie aux paramètres des distributions a priori et non aux distributions elles-mêmes; de même, il désigne les quantités qui sont proportionnelles à l’emplacement (espérance) des distributions antérieures. Dans cette configuration, la loi a priori de sujet β peut être représentée par une matrice de sorte que l’entrée βij soit la loi a priori du ie terme étant donné le je sujet. Notons que sans information a priori ou connaissance de domaine sur Φij, le paramètre de probabilité du ie terme étant donné le je sujet, une loi a priori uniforme serait imposée en faisant de β une constante et serait donc représentée minimalement par un scalaire. Chaque fois que β est constant, la loi de Dirichlet qui en résulte est symétrique et on dit qu’elle a une loi a priori symétrique, qui est la constante. Supposons qu’au temps t-1 nous avons appris la matrice des paramètres de sujet Φt-1, avant d’apprendre Φt nous imposerons une loi a priori βt sous la forme suivante :

Équation 13 : β(t)=ηΦ(t-1)+(1-η)β(0)
  β(0)=1V1V1V1V  et  η[0,1]

La matrice Φt-1 sert de loi a priori informative pour Φt, ce qui implique essentiellement qu’on suppose que les distributions de sujets provenant de fenêtres de temps adjacentes sont semblables en un sens. β0 sert de loi a priori uniforme non informative, cette matrice lisse essentiellement l’information pointue de Φt-1. Parce que le vocabulaire évolue également au fil du temps, ce qui signifie que certains mots sont ajoutés et d'autres supprimés du vocabulaire à mesure que le modèle voit de nouveaux corpus, il faut en tenir compte dans la loi a priori. Il est nécessaire de s’assurer que tout sujet non encore appris est susceptible d’inclure un nouveau mot même si, dans les fenêtres temporelles précédentes, ce même sujet avait une probabilité de 0 d’inclure ce mot. L’introduction de β0 avec une valeur non nulle de η garantit que tout nouveau mot a une probabilité non nulle d’être repris par un sujet en évolution.

On dit qu’une distribution de Dirichlet avec une valeur non constante de β a une loi a priori non symétrique. En général, la littérature recommande de ne pas utiliser de lois a priori non symétriquesNote de bas de page 5 puisqu’il est habituellement déraisonnable de supposer qu’il y a suffisamment d’information a priori sur les distributions de mots dans des sujets inconnus. Notre cas est différent. Il est raisonnable de supposer que des corpus de temps adjacents ont en commun un certain niveau d’information sur la distribution de mots et, pour mieux justifier cette loi a priori, un chevauchement entre les corpus adjacents sera imposé. Supposons que Dt-1 et Dt sont des corpus respectivement au temps t-1 et t, essentiellement, la condition suivante sera imposée :

Équation 14 : D(t-1)D(t)

La proportion de chevauchement est contrôlée par un hyperparamètre défini au préalable. Soulignons que le chevauchement renforce l’hypothèse selon laquelle βt est une loi a priori raisonnable pour Φt. Cependant, on pourrait toujours raisonnablement supposer que cette loi a priori est raisonnable, même si les corpus ne se chevauchaient pas, puisque Dt-1 et Dt seraient assez proches dans le temps et auraient alors en commun un certain niveau d’information pour ce qui est de la distribution de mots.

Date de modification :

Initiative de démocratisation des données

L'Initiative de démocratisation des données (IDD) est un partenariat entre les établissements d'enseignement postsecondaire et Statistique Canada qui vise à améliorer l'accès aux ressources de données. Ce programme axé sur l'utilisateur renforce les capacités statistiques et le leadership grâce à une formation à l'accès aux microdonnées et d’un soutien à une collection de données de recherche en expansion constante.

Ce service par adhésion offre aux étudiants et aux membres de la facuté l'accès à la Collection de fichiers de microdonnées à grande diffusion (FMGD) de Statistique Canada et aux livres des codes de fréquence « 0 » des fichiers maîtres. Un accès illimité à toutes les microdonnées et à la documentation est offert par l'entremise du service de Transfert électronique de fichiers (TEF) de Statistique Canada et d'une base de données en ligne à accès restreint par Protocole Internet (IP) dotée d'un outil de découverte convivial. Certains fichiers sont également disponibles gratuitement sur le site Web de Statistique Canada. Divers fournisseurs de données secondaires réorganisent les données sélectionnées de Statistique Canada dans leurs propres répertoires de données de recherche, dont Abacus, ODESI et CHASS.

L'adhésion est offerte aux institutions académiques canadiennes.

Renseignements et ressources

Données

Projets et ensembles de données

Communauté d'utilisateurs

Établissements participants et personnes-ressources

Gouvernance

Comités et documentation

Formation et activités

Séances de formation, guides de l'utilisateur, webinaires et activités

Frais

Coûts liés au programme

Processus de demande et lignes directrices

Processus de demande et lignes directrices

À propos de l'accès

Historique du programme

Foire aux questions

Foire aux questions

Coordonnées

Si vous avez des questions ou des commentaires

Formation et événements - IDD

Calendrier des évènements

Le calendrier contient la liste des séances de formation régionales, des webinaires et des événements de l'Initiative de démocratisation des données (IDD) qui auront lieu ultérieurement.

Rencontres et formations

La prochaine rencontre des Membres du Comité consultatif externe aura lieu :

  • 13 mai, 2024
  • 7 octobre, 2024
  • 2 décembre, 2024
  • 10 février, 2025

La prochaine formation nationale de l'IDD aura lieu dans la semaine du 27 Mai, 2024.

Dites-nous ce que vous souhaitez pour la prochaine formation nationale. Transmettez vos idées à votre coordonnateur régional de la formation.

Consultez les Archives des événements pour obtenir des détails sur les événements de formation DLI passés.

Matériel de formation

Trousse de survie de l'IDD
Cette trousse sert de guide de référence aux personnes-ressources de l'IDD désignées par les établissements qui participent au programme à l'échelle du Canada.

Dépôt des documents de formation de l'IDD
Le dépôt des documents de formation contient des présentations tirées des séances de formation et des ateliers sur l'IDD. Il contient également d'autres présentations et ateliers connexes accessibles à l'échelle nationale et internationale.

Legacy Content

Trousse de survie de l'IDD

 

Trousse de survie (PDF, 411.67 Ko)

  • Vue d'ensemble

    Vue d'ensemble

    À propos du programme

    L'Initiative de démocratisation des données (IDD) est un partenariat entre les établissements d'enseignement postsecondaire et Statistique Canada qui vise à améliorer l'accès aux ressources en matière de données. L'IDD est un programme qui s'inscrit dans le continuum des services et des produits d'accès aux microdonnées de Statistique Canada. Au fil des ans, l'orientation du Programme de l'IDD a évolué pour passer de l'achat d'un accès aux principaux ensembles de données recueillies par Statistique Canada à la prestation de services de formation et de soutien continus nécessaires à la compréhension et à l'utilisation efficaces d'une collection de données sans cesse grandissante. Pour obtenir de plus amples renseignements, notamment sur les avantages de l'abonnement à l'IDD et sur l'histoire du programme, veuillez visiter le site Web de l'IDD.

    Rôle de la personne-ressource de l'IDD

    En tant que personne-ressource de l'IDD pour votre établissement d'enseignement (un rôle partagé par un réseau de personnes-ressources à l'échelle du Canada), vous avez un rôle essentiel dans la promotion de l'accès aux ressources en matière de données canadiennes.

    En général, les personnes-ressources de l'IDD fournissent de l'aide pour trouver, consulter et analyser les données et les produits de Statistique Canada. Bien qu'elles ne soient pas toujours des expertes en logiciels statistiques et en analyse de données, les personnes-ressources peuvent aiguiller les utilisateurs vers d'autres personnes dans leur établissement d'enseignement ou dans la communauté de l'IDD (par l'intermédiaire du serveur de liste) qui peuvent aider à répondre à des questions d'ordre technique ou méthodologique.

    Les personnes-ressources de l'IDD ont les responsabilités suivantes :

    • Soutien aux utilisateurs : Les personnes-ressources de l'IDD aident les membres du corps professoral, le personnel et les étudiants à utiliser les ressources de Statistique Canada.
    • Licences : Les personnes-ressources de l'IDD veillent à ce que les conditions d'utilisation des ententes de licence de l'IDD soient respectées dans leurs établissements.
    • Renouvellement d'abonnement : Les personnes-ressources de l'IDD s'assurent que les frais d'adhésion annuels sont payés.
    • Liaison : Les personnes-ressources de l'IDD communiquent avec les établissements membres par l'intermédiaire de leur réseau de contacts. Ces communications ont trait aux modifications dans les licences, aux mises à jour dans les services aux membres, et aux séances de sensibilisation et de perfectionnement professionnel.
    • Accès : Les personnes-ressources de l'IDD s'assurent que le programme obtient les domaines de propriété intellectuelle (PI) actuels de l'établissement afin de maintenir l'accès aux ressources en fonction de la PI.
    • Gouvernance : Les personnes-ressources de l'IDD peuvent être appelées à voter pour leur coordonnateur régional de la formation (CRF) si plus d'un candidat se présente pour un poste à combler.

    Outre le recensement tous les cinq ans, Statistique Canada mène un large éventail d'enquêtes qui portent sur presque tous les aspects de la vie canadienne. Statistique Canada offre l'accès à ces données pour le soutien de la recherche, de l'industrie et de l'élaboration de politiques. Une compréhension de certains concepts de base relatifs aux données permettra de déterminer les produits offerts et les programmes par l'entremise desquels on peut y accéder.

    Terminologie relative aux données

    Données agrégées

    Renseignements provenant directement de fichiers de microdonnées statistiques ou de fichiers statistiques agrégés. Contrairement aux fichiers de microdonnées statistiques, les statistiques agrégées ne comprennent pas d'information au niveau des unités individuelles d'observation. Autrement dit, elles sont le résultat d'un regroupement des données à un niveau agrégé ou macro (p. ex. personnes dans un groupe d'âge particulier, entreprises ou organisations dans une industrie particulière, ou ménages dans une région particulière).

    Fichier de microdonnées

    Un fichier structuré contenant des renseignements sur des personnes, des entreprises ou des organisations. Un fichier de microdonnées peut être le résultat d'un recensement de toutes les unités ou uniquement d'un échantillon d'unités. En outre, le fichier peut être le produit de la collecte directe à des fins statistiques ou un fichier administratif où les utilisations statistiques ne représentent pas l'objectif principal de la collecte, ou bien une combinaison des deux.

    Il y a trois types de fichiers de microdonnées :

    • Fichiers-maîtres : Pour chaque enquête menée, on crée un fichier principal qui renferme toutes les réponses de chaque répondant, consignées sous la forme précisée dans le questionnaire. Les fichiers principaux ne sont accessibles que par l'entremise des centres de données de recherche (CDR) sur demande.
    • Fichiers synthétiques : Fidèle à son souci d'offrir de nouvelles possibilités d'accès, Statistique Canada investit dans la recherche de méthodes de création de données synthétiques. Ces données peuvent prendre diverses formes et présenter différentes caractéristiques de qualité, mais visent toujours à offrir une possibilité d'accès aux microdonnées sans autre risque de divulgation, d'où une diffusion grand public.
    • Fichiers de microdonnées à grande diffusion (FMGD) : Les FMGD sont des ensembles d'enregistrements qui contiennent des renseignements sur des personnes ou des ménages (microdonnées). Il s'agit de données non agrégées qui sont soigneusement modifiées puis examinées pour s'assurer qu'aucune personne ou entreprise n'est identifiée directement ou indirectement.

    Documentation

    Statistique Canada publie des documents qui accompagnent ses fichiers de microdonnées. Cette documentation est nécessaire pour utiliser et interpréter les fichiers de microdonnées, et peut notamment inclure des questionnaires d'enquête, des instructions aux intervieweurs, des livres de codes, des guides de l'utilisateur, des clichés d'enregistrements, des dictionnaires de données, des fichiers de fréquences et des tableaux de c.v.

    Données administratives

    Les données administratives sont des renseignements recueillis par les organisations des secteurs public et privé dans le cadre de leurs activités courantes, par exemple, les certificats de naissance et de décès, les dossiers fiscaux, les registres des mouvements des biens et des personnes aux frontières, et les données recueillies par les satellites. Comme la plupart des autres organismes de statistique, Statistique Canada utilise des données administratives en remplacement ou en plus des données d'enquête et à l'appui des opérations statistiques.

    Ressources à consulter pour la terminologie relative aux données

    • Définitions, sources de données et méthodes de Statistique Canada : Ces renseignements servent à mieux faire comprendre les concepts de base servant à définir les données incluant les variables et les classifications, les méthodes statistiques et les enquêtes, et les principaux aspects de la qualité des données. Ce module fournit également un accès direct aux questionnaires.
    • Les statistiques : le pouvoir des données! Glossaire : Ces définitions visent à renseigner ceux qui ont des questions concernant les statistiques, mais qui n'ont pas besoin d'une définition hautement technique.

    Continuum de l'accès aux microdonnées

    L'accès aux microdonnées est offert par l'entremise d'une série de canaux de diffusion.

    Le tableau suivant présente les canaux de diffusion offerts pour les données agrégées et les microdonnées.

      Site Web de Statistique Canada Initiative de démocratisation des données Ventes de produits et totalisations personnalisées Système d'accès à distance en temps réel (ADTR) Centres de données de recherche
    Qui peut avoir accès aux données Grand public Étudiants, membres du corps professoral et personnel des établissements d'enseignement postsecondaire membres Membres individuels d'organisations Membres individuels d'organisations, étudiants de niveau postsecondaire, gouvernements membres Chercheurs approuvés (membres individuels d'organisations, étudiants de niveau postsecondaire, gouvernements)
    Conditions Licence ouverte de Statistique Canada La majorité des produits font partie de la Licence ouverte de Statistique Canada. L'accès aux produits ne faisant pas partie de la licence ouverte est réservé à des fins statistiques, d'enseignement et de recherche. Veuillez consulter le module Processus de demande et lignes directrices pour obtenir de plus amples renseignements. Confirmation d'achat entre Statistique Canada et les membres individuels d'une organisation Entente ADTR et licence ouverte de Statistique Canada Statut de personne réputée être employée de Statistique Canada
    Données disponibles Produits de données normalisés et publications électroniques Produits de données normalisés, fichiers de microdonnées à grande diffusion, produits de données sur les codes postaux, etc. Tableaux tirés de fichiers confidentiels qui font l'objet d'un traitement spécial par Statistique Canada moyennant des frais. Fichier de microdonnées « fictives » pour différents ensembles de données administratives et d'enquête sociale, qui fournissent des extrants sous forme de tableaux statistiques. Fichiers de microdonnées et ensembles de données administratives confidentielles
    Mode d'accès Disponibles sur Internet
    • Service de transfert électronique de fichiers
    Totalisation personnalisée remise au client Service de transfert électronique de fichiers Un centre de données de recherche sécurisé

    Les enquêtes et programmes statistiques n'engendrent pas tous des produits de données. Bon nombre de divisions ne créent pas de FMGD parce qu'ils sont coûteux à produire et qu'ils doivent être approuvés par le Comité de la diffusion des microdonnées (contrôle de confidentialité des microdonnées à Statistique Canada). Certaines divisions créent uniquement des tableaux standards accessibles par l'entremise du site Web de Statistique Canada et imposent des frais d'extraction pour les demandes plus approfondies (p. ex. les totalisations personnalisées). Bien que les données puissent être librement accessibles, des frais de recouvrement des coûts s'appliqueront au temps accordé par l'analyste.

    Gouvernance

    Comité consultatif externe

    L'Initiative de démocratisation des données est orientée par son Comité consultatif externe (CCE). Le CCE est composé de représentants désignés des établissements membres de l'IDD, de Statistique Canada et d'organisations externes. Il se réunit deux fois par année. Pour la liste à jour des membres du CCE de l'IDD, consultez la section Gouvernance du site Web de l'IDD.

    Comité de développement professionnel

    Le Comité de développement professionnel (CDP) de l'IDD, qui relève du CCE, est responsable du développement continu d'un programme d'études en services de données pour les membres du personnel postsecondaire qui soutiennent l'IDD à leurs établissements d'enseignement. Le CDP comporte huit CRF, un représentant collégial, un président et un représentant de la section de l'IDD. Pour la liste à jour des membres du CDP, consultez la section Gouvernance du site Web de l'IDD.

    Coordonnateurs régionaux de la formation

    Deux coordonnateurs régionaux de la formation pour chacune des quatre régions (Canada atlantique, Québec, Ontario et Ouest canadien) et un représentant collégial font partie du CDP-IDD et ont pour responsabilités

    • de cerner les besoins en matière de formation dans leur région;
    • de communiquer ces besoins au CDP dans le but d'établir le budget qui sera accordé à la formation et à la coordination des activités de formation à l'échelle nationale;
    • d'organiser les activités de formation locales;
    • d'élaborer le programme de formation de leur région.

    Personne-ressource de l'IDD

    Les établissements membres désignent leur personne-ressource de l'IDD et un remplaçant. La personne-ressource de l'IDD a la responsabilité de promouvoir et de faciliter l'accès aux ressources de Statistique Canada, et de s'assurer que la licence de l'IDD est respectée. Consultez la section Gestion de votre adhésion ci-dessous pour obtenir de plus amples renseignements sur la licence de l'IDD.

    Les établissements membres ont l'obligation de désigner une personne-ressource, mais la sélection d'un remplacement est facultative. La personne-ressource de l'IDD et son remplaçant doivent se familiariser avec l'IDD et les ressources de Statistique Canada afin de pouvoir aider les utilisateurs ayant des questions reliées aux données. En outre, il est recommandé que la personne-ressource de l'IDD se familiarise avec les ressources offertes sur le campus, notamment l'utilisation d'un logiciel statistique afin d'aider les utilisateurs qui ont des questions liées aux données si elle n'a pas déjà acquis ces compétences.

    Consultez la rubrique Communauté d'utilisateurs pour une liste des personnes-ressources à chaque établissement membre.

    Modifier une personne-ressource de l'IDD

    Si la personne-ressource de l'IDD change dans votre établissement, veuillez en aviser la section Accès libre-service. Les coordonnées de la personne-ressource de l'IDD doivent être mises à jour si la personne-ressource de l'IDD actuelle s'absente pour un congé prolongé (sabbatique, congé de maternité). Assurez-vous de préciser la date à laquelle le changement sera en vigueur, le nom de la nouvelle personne-ressource, le titre de son poste, son adresse postale, son adresse de courriel, son numéro de téléphone et son numéro de télécopieur.

  • Gestion de votre adhésion

    Gestion de votre adhésion

    Lorsqu'une personne-ressource de l'IDD est identifiée, elle obtient l'accès aux ressources de l'IDD, y compris au service de transfert électronique de fichiers (TEF) et à la liste d'envoi (dlilist).

    Mot de passe du service de transfert électronique de fichiers

    Le site TEF de l'IDD est un référentiel utilisé pour la diffusion de la collection de l'IDD. L'utilisation du TEF est limitée aux personnes-ressources et à leurs remplaçants désignés. Chaque utilisateur du TEF doit avoir son propre code d'utilisateur et son mot de passe. Lorsqu'une nouvelle personne-ressource est identifiée, la section de l'IDD envoie les renseignements du compte TEF par courriel. Pour demander une réinitialisation du mot de passe, veuillez communiquer avec la section Accès libre-service.

    dlilist

    Les personnes-ressources de l'IDD utilisent le serveur de liste de l'IDD pour obtenir des renseignements sur la collection et les licences d'utilisation des données de l'IDD, et fournir des commentaires sur les produits et services de Statistique Canada.

    La dlilist est un serveur de liste disponible par abonnement, ce qui signifie que seuls les utilisateurs inscrits peuvent publier ou recevoir des messages. Les messages de la liste sont envoyés à tous les utilisateurs inscrits par courriel.

    La page d'accueil du serveur de liste est accessible.

    Si vous tentez de vous connecter hors campus, vous devrez utiliser un RPV.

    Abonnement et désabonnement

    Avis de non-responsabilité

    La dlilist est un serveur de liste auquel l'adhésion est facultative. En utilisant ce service, vous acceptez que votre adresse électronique et que vos communications soient accessibles par les autres utilisateurs de la dlilist. Toutes les communications seront consignées dans les archives de la liste d'envoi de Statistique Canada. Les opinions exprimées dans ces communications sont celles des utilisateurs de la dlilist et ne représentent pas celles de Statistique Canada.

    Archives de la dlilist

    Les messages de la dlilist sont consignés et conservés dans des archives protégées et consultables auxquelles les personnes-ressources de l'IDD peuvent accéder.

    2014 à aujourd'hui : archives dlilist

    Renouvellement d'abonnement

    L'abonnement annuel à l'IDD est valide du 1er avril au 31 mars de l'année suivante.Les abonnements à l'IDD sont renouvelés chaque année entre avril et juin.

    Il incombe aux personnes-ressources de l'IDD de s'assurer que les cotisations annuelles obligatoires sont payées. Certains établissements membres confient la tâche de payer la cotisation obligatoire à un service particulier de leur bibliothèque. D'autres font envoyer les factures à la personne-ressource de l'IDD qui coordonne le paiement à l'interne. Pour modifier la personne à laquelle la confirmation d'achat et la facture doivent être envoyées, veuillez communiquer avec la section Facturation.

  • Apprentissage

    Apprentissage

    Séances de formation

    L'IDD tient annuellement une séance de formation dans chacune de ses quatre régions : Canada atlantique, Québec, Ontario et Ouest canadien. Ces séances de plusieurs jours sont ouvertes à quiconque offre des services pour l'IDD. Toutefois, la priorité est accordée aux personnes-ressources de l'IDD et à leurs remplaçants. L'IDD organise une séance de formation nationale tous les quatre ans environ (généralement en conjonction avec la tenue de la conférence de l'IASSIST au Canada). Toute la communauté de l'IDD peut se rencontrer à cette occasion.

    Les coordonnateurs régionaux de la formation ont la responsabilité d'organiser la formation dans chacune de leurs régions avec le soutien de la section de l'IDD. Les séances portent sur différents sujets allant des compétences de base en matière de services de données à des séances avancées donnant suite aux formations précédentes. Ces séances de formation permettent aux personnes-ressources de l'IDD d'apprendre les unes des autres et auprès des spécialistes de Statistique Canada.

    Subventions de voyage

    Un soutien financier pour le transport vers le lieu de la formation est offert à chacune des personnes-ressources de l'IDD ou à leur représentant pour leur permettre de participer à une séance de formation par exercice financier. Toutes les demandes de voyage doivent être approuvées par la section de l'IDD avant que les réservations ne soient effectuées. Si une personne-ressource ou son remplaçant fait une communication lors d'une séance, des fonds supplémentaires peuvent être disponibles. Pour obtenir de plus amples renseignements, consultez la section Gouvernance du site Web de l'IDD.

    Initiative de formation sur la littératie des données de Statistique Canada

    L'initiative de formation sur la littératie des données fournit une foule de ressources destinées à ceux qui s'initient aux données ou à ceux qui ont une certaine expérience des données, mais qui pourraient avoir besoin d'une mise à jour ou qui veulent élargir leurs connaissances. L'objectif est de fournir aux apprenants les concepts et les compétences de base sur un éventail de sujets liés à la littératie des données, y compris Que sont les données? Introduction à la terminologie et aux concepts relatifs aux données et Types de données : Comprendre et explorer les données.

    Bulletin de la Division de l'accès aux données (DAD)

    Le Bulletin de DAD a pour but d'informer les abonnés et les utilisateurs sur les initiatives en cours dans la division. Il fournit des mises à jour sur les projets de l'IDD et les initiatives locales liées aux données et de modernisation, de même que toutes les mises à jour sur nos autres modes d'accès aux données, comme l'ADTR et les CDR.

    Les commentaires, idées et propositions d'articles sur l'IDD pour les prochains numéros du bulletin sont les bienvenus. Veuillez les envoyer à la section Accès libre-service.

    Dépôt des documents de formation

    Le dépôt des documents de formation de l'IDD contient les ateliers tirés des séances de formation sur l'IDD ainsi que des conférences. La section de l'IDD a la responsabilité de téléverser les présentations et les documents au dépôt après chaque séance de formation. Ces documents sont accessibles à quiconque désire les consulter et les télécharger.

    Pour obtenir de plus amples renseignements sur le dépôt des documents de formation, visitez la page Web du dépôt. Pour obtenir de plus amples renseignements sur l'historique du dépôt des documents de formation, veuillez consulter la présentation intitulée Creating a Repository of Training Materials : The Canadian Experience par Jane Fry de l'université Carleton (en anglais seulement).

    Data Interest Group for Reference Services (en anglais)

    Le contenu diffusé par le Data Interest Group for Reference Services (groupe d'intérêt sur les données à des fins de services de référence) (DIGRS) porte principalement sur les questions et les réponses publiées depuis 2004 jusqu'à aujourd'hui sur le serveur de liste de l'IDD. Le contenu est présenté de façon conviviale et on peut extraire l'information par mot-clé, par date ou par catégorie.

    Citation des données

    L'importance de citer les données

    Les références bibliographiques sont importantes lorsqu'on utilise les données ou les idées d'une autre personne dans son propre texte. Elles attribuent le mérite aux auteurs desquels on emprunte le contenu et permettent aux lecteurs de trouver les sources utilisées. Des renseignements supplémentaires sont disponibles ici : Comment citer les produits de Statistique Canada.

  • Accès

    Accès

    En quoi consiste la collection de l'IDD?

    La collection de l'IDD se compose principalement de produits standards de Statistique Canada, y compris les FMGD, les tableaux de données agrégées et les fichiers de limites. Les collections sous licence comprennent des échantillons de fichiers de la Base de données sur les congés des patients (BDCP) de l'Institut canadien d'information sur la santé (ICIS), des produits de données sur les codes postaux de Postes Canada, et la Base de données et Modèle de simulation des politiques sociales (BD/MSPS).

    Site de transfert électronique de fichiers

    À propos du site

    Le site de TEF de l'IDD est l'entrepôt de données de la collection de l'IDD. Pour garantir la protection absolue des fichiers de données, le service de TEF exige que chaque utilisateur ait son propre code d'utilisateur et mot de passe.

    Le service de TEF prend en charge un protocole de transfert de fichiers (FTP) standard pour l'envoi et la réception des fichiers. Les personnes-ressources de l'IDD auront besoin d'une application FTP comme WS_FTP ou FileZilla pour accéder au site de TEF.

    Comprendre la structure des répertoires

    La collection de TEF de l'IDD contient cinq sous-répertoires, qui sont présentés dans le tableau ci-dessous. Certaines personnes-ressources de l'IDD pourraient ne pas voir tous les répertoires si leur établissement n'a pas signé pour obtenir les licences de l'IDD appropriées (p. ex. fichier de conversion des codes postaux [FCCP] ou BD/MSPS).

    . Readme-Key_Lisezmoi-cle.xls énumère tous les FMGD par date, acronyme et numéro d'enregistrement de l'enquête pour faciliter la consultation des fichiers de données.

    . Other-products_autres-produits.xls énumère tous les fichiers de données agrégées par date, acronyme et numéro d'enregistrement de l'enquête pour faciliter la consultation des fichiers de données.

    Nom du coffre Contenu Licence
    MAD_PUMF_FMGD_DAM Fichier de microdonnées et métadonnées d'enquête à grande diffusion, organisés selon le numéro d'enregistrement, l'acronyme et l'année de l'enquête Entente de licence ouverte de Statistique Canada
    MAD_DLI_IDD_DAM Rapports annuels de l'IDD, matériel de formation de l'IDD, produits de données sur CD­ROM, fichiers de géographie, fichiers du Recensement de la population et du Recensement de l'agriculture, fichiers de données agrégées, et autres Entente de licence ouverte de Statistique Canada
    MAD-PCCF_FCCP_DAM Fichier de conversion des codes postaux, Fichier des codes postaux par circonscriptions électorales fédérales et Fichier de conversion des codes postaux plus. Section I – Accès au fichier de conversion des codes postauxMO (FCCP) : Licence FCCP
    MAD_CIHI_ICIS_DAM Base de données sur les congés des patients de l'Institut canadien d'information sur la santé Section III – Accès aux fichiers d'analyse de la base de données sur les congés des patients (BDCP) – Licence de la BDCP
    MAD_SPSDM_BDMSPS_DAM Base de données et Modèle de simulation de politique sociale Section II – Accès à la base de données et au modèle de simulation de politique sociale (BD/MSPS) : Licence BD/MSPS
    MAD_PUMF_FMGD_DAM

    Chaque année d'une enquête se retrouve habituellement dans un sous-répertoire distinct. Le deuxième niveau dans le dossier d'enquête est subdivisé en données (data) et documentation (doc). On trouve également à ce niveau le fichier « lisez-moi » (« readme ») correspondant à l'enquête. Le sous-dossier/data (données) contient un fichier de données compressé. Les données peuvent prendre la forme de microdonnées au format ASCII, SPSS, STATA ou SAS. Le sous-dossier/doc (documentation) comprend les métadonnées, c'est-à-dire l'information nécessaire à l'interprétation et à la compréhension des microdonnées.

    Par exemple :

    /MAD_PUMF_FMGD_DAM/Root/
    /3250_APS_EAPA
    /1991
    /2001
    /2001-Children
    /2006
    /age-06-14
    /age-15+
    /data
    /doc
    lisezeapa2006-age-15+.txt
    readaps2006-age-15+.txt
    /3251_PALS_EPLA

    En ce qui concerne les dossiers de l'ESG, veuillez consulter la clé TEF intitulée Readme-Key_Lisezmoi-clé.xls. Nous avons bien noté les cycles de l'ESG (la dernière colonne à droite indique les cycles connexes).

    MAD_DLI_IDD_DAM
    Dossiers des recensements

    Les dossiers des recensements sont organisés par année de recensement. La manière dont le dossier de l'année de recensement est organisé varie d'une année à l'autre. Généralement, pour le Recensement de la population, les dossiers pour une année de recensement sont organisés soit par type de données (p. ex. b2020, FMGD) soit par sujet (p. ex. main-d'œuvre, revenu). Pour le Recensement de l'agriculture, l'organisation des dossiers peut varier en fonction des types de données (p. ex. Excel), de la géographie (p. ex. petite zone, région agricole), ou des données et de la documentation. La façon la plus rapide de trouver un fichier de recensement consiste parfois à envoyer un courriel au serveur de liste pour demander où il se trouve.

    Dossier de géographie

    Le dossier de géographie est d'abord subdivisé par année de recensement. Le niveau secondaire désigne le type d'information souhaitée. Ainsi un utilisateur peut chercher des cartes de référence, des fichiers de limites, ou des produits particuliers. Le fichier lisez-moi est un outil essentiel pour naviguer dans le dossier.

    Dossier des rapports

    Le dossier des rapports contient des documents qui présentent un intérêt particulier pour les personnes-ressources de l'IDD, notamment le rapport semestriel du CCE, les bulletins de l'IDD, et les procès-verbaux des réunions du CCE et du CDP. De plus, les utilisateurs peuvent y trouver les images du nouvel identificateur graphique de l'IDD.

    Dossier Other-Autres (tableaux de données, produits sur CD-ROM)

    Le dossier Autres fournit une liste de produits de données supplémentaires organisés selon le numéro d'enregistrement ou de catalogue de l'enquête, et l'acronyme correspondant à l'enquête ou au produit. L'équipe de l'IDD a commencé à utiliser cette convention nominale pour conserver l'espace dans le serveur et harmoniser les deux langues officielles. De plus, les utilisateurs qui souhaitent obtenir des précisions sur les numéros d'enregistrement ou les acronymes sont invités à utiliser le classeur Excel enregistré dans le dossier (other-products_autres-produits.xls). Les fonctions du classeur sont essentielles pour mieux comprendre la nomenclature. Les produits CD-ROM qui se trouvent dans ce dossier sont en format compressé et peuvent être téléchargés. L'utilisateur aura parfois besoin de télécharger le contenu du CD-ROM, puis de décompresser les fichiers et de les graver sur un CD-ROM (cela sera indiqué dans le fichier lisez-moi). Bon nombre de produits ont des structures exclusives inhabituelles et doivent par conséquent être exécutés à partir d'un CD plutôt que téléchargés sur un disque dur.

    MAD_CIHI_ICIS_DAM

    Le coffre de l'ICIS comprend des fichiers d'échantillon de la Base de données sur les congés des patients (BDCP). Les données de 2009 à aujourd'hui sont actuellement accessibles dans des sous-dossiers clairement identifiés.

    MAD_PCCF_FCCP_DAM

    Le coffre du FCCP est initialement divisé selon l'année de recensement. Le second niveau de division indique le produit de données des codes postaux :

    • PCCF (dossier : pccf-fccp)
    • Fichier des codes postaux par circonscriptions électorales fédérales (dossier : pcfrf-fcpcef)
    • Fichier de conversion des codes postaux plus (dossier : pccf-fccp-plus)

    Dans chaque sous-dossier, un fichier lisez-moi fournit une description du produit et un résumé des changements apportés au produit (p. ex. depuis juin 2013, le FCCP est offert uniquement en tant que progiciel standard pour le Canada [il n'est plus offert au niveau des provinces] et est mis à jour et diffusé sur une base annuelle [précédemment diffusé deux fois l'an]). Le fichier lisez-moi indique également le titre du produit (p. ex. FCCP pour août 2015), la date de diffusion (p. ex. 12 février 2016), la fréquence de diffusion et le répertoire.

    MAD_SPSDM_BDMSPS_DAM

    En 2016, la section de l'IDD a créé le coffre BD/MSPS. Les sous-dossiers sont identifiés par version, chacun contenant ses propres fichiers d'installation et instructions. Veuillez consulter les fichiers lisez-moi intégrés dans chacun des dossiers pour obtenir plus d'information.

    Convention nominale

    Les fichiers qui se trouvent sur le site de TEF suivent une convention nominale similaire. À leur réception en provenance de la division de l'auteur, on renomme les fichiers conformément à la convention nominale de l'IDD. Par conséquent, le nom d'un fichier produit par une division spécialisée peut différer de celui du fichier conservé sur le site TEF de l'IDD.

    Les fichiers sont d'abord désignés par l'acronyme de l'enquête suivi par l'année ou le cycle de l'enquête et enfin par le type du document.

    Documents et leurs extensions

    Si un fichier est mis à jour ou remplacé par la division spécialisée, une extension supplémentaire est ajoutée pour spécifier le numéro de la version.

    • Guide de l'utilisateur de l'Enquête sur l'utilisation d'Internet à la maison de 2003 : euim2003gid.pdf
    • Questionnaire pour l'Enquête sur les dépenses des ménages de 2009 : edm2009que.pdf

    Fichiers lisez-moi

    Le fichier lisez-moi est un guide de référence rapide pour le site de TEF de l'IDD. Dans un dossier (enquête, recensement, géographie, etc.), le fichier lisez-moi fournit un aperçu du contenu de tout le dossier. Cela comprend non seulement les noms de fichiers, mais aussi les titres au long, ce qui permet aux utilisateurs d'identifier le fichier qu'ils recherchent. Pour les FMGD, le fichier lisez-moi indique aussi la taille et la longueur du fichier de données afin de pouvoir vérifier rapidement si le transfert complet a bien été effectué du site TEF à l'ordinateur de l'utilisateur.

    Extraction de fichiers à partir du site TEF

    En utilisant un logiciel FTP spécialisé, accédez au site TEF de l'IDD et ouvrez une session. Le nom de l'hôte, le code d'utilisateur et le mot de passe sont fournis par la section de l'IDD.

    Lorsque vous aurez trouvé les fichiers que vous voulez télécharger, sélectionnez-les et transférez-les sur votre ordinateur. Assurez-vous de préciser le dossier de réception sur votre ordinateur avant de commencer le transfert.

    Aussi, réglez le mode de transfert selon le type de fichier que vous transférez. Il est préférable de régler le mode de transfert à auto de façon à ce que le programme sélectionne automatiquement le mode de transfert approprié selon l'extension du fichier. En règle générale, tous les fichiers doivent être téléchargés en mode binaire sauf les fichiers portant les extensions suivantes : .txt, .sps, .sas et .dat.

    Une fois que vous avez téléchargé les fichiers de données, il faut les décompresser (dézipper) si nécessaire. Si la documentation est compressée, elle devra être décompressée.

    Si vous éprouvez des difficultés, veuillez communiquer avec la section Accès libre-service.

    Demandes de données non trouvées dans la collection de l'IDD

    Si vous identifiez un produit qui devrait selon vous faire partie de la collection de l'IDD, veuillez soumettre votre demande sur la dlilist.

    Distributeurs de données secondaires

    Computing in the Humanities and Social Sciences (CHASS)

    (abonnement institutionnel obligatoire)

    CHASS (disponible en anglais seulement) est un service informatique de la Faculté des sciences humaines et sociales de l'Université de Toronto. Il offre une collection de bases de données relatives aux sciences sociales et d'intérêt général (p. ex. les tables du Fonds monétaire international et de la Banque mondiale) ainsi que deux bases de données avec des données de Statistique Canada : Canadian census – census profile data at various levels of geography back to 1961

    Microdata analysis and subsetting with survey documentation and analysis (SDA) on CHASS

    (abonnement institutionnel obligatoire)

    CANSIM sur CHASS

    SDA @ CHASS est un ensemble de programmes pour la documentation et l'analyse Web de données d'enquête. SDA offre également des procédures pour la création de sous-ensembles personnalisés d'ensembles de données.

    Abacus Dataverse Network

    (abonnement institutionnel obligatoire)

    Abacus Dataverse Network (disponible en anglais seulement) est le dépôt de données de recherche des services de données des bibliothèques de recherche de la Colombie-Britannique. Il s'agit d'une collaboration entre les bibliothèques de données de l'Université Simon-Fraser, de l'Université de la Colombie-Britannique, de l'Université de Northern British Columbia et de l'Université de Victoria.

    Ontario Data Documentation, Extraction Service and Infrastructure Initiative (ODESI)

    (abonnement institutionnel obligatoire)

    ODESI est un référentiel numérique pour les données en sciences sociales, notamment les données de l'IDD et d'un éventail de sondages d'opinion publique. Il s'agit d'un outil Web d'exploration, d'extraction et d'analyse créé par le Scholars Portal, un service de l'Ontario Council of University Libraries (OCUL), auquel les utilisateurs autorisés des universités et des établissements membres peuvent accéder. Les métadonnées d'ODESI sont des données ouvertes accessibles de partout dans le monde.

    Scholars Portal Dataverse

    (abonnement institutionnel obligatoire)

    Scholars Portal Dataverse est un dépôt de données principalement consacré aux données de recherche recueillies par les chercheurs et les organisations et fournies par le Scholars Portal pour le compte d'OCUL et d'autres établissements participants, bien que n'importe qui peut utiliser Scholars Portal Dataverse pour déposer, partager et archiver des données.

    Données statistiques et géographiques

    Conçu par les bibliothèques universitaires du Québec, le site Données statistiques et géographiques permet d'accéder aux produits géographiques et aux données agrégées de l'IDD. L'accès aux données est réservé aux étudiants, aux professeurs et aux chercheurs des universités participantes.

    Données ouvertes – gouvernement du Canada

    Cherchez des données ouvertes sur les Canadiens, apprenez comment travailler avec des ensembles de données, et voyez ce que les gens ont fait avec les données ouvertes à travers le pays.

    Infrastructure de recherche sur le Canada au 20e siècle

    L'Infrastructure de recherche sur le Canada au 20e siècle (IRCS) est une initiative pancanadienne, multidisciplinaire et multi-institutionnelle dont l'objectif est de créer un ensemble de bases de données interreliées regroupant les données des recensements canadiens tenus entre 1911 et 1951. Le site Web du portail d'accès de l'IRCS est hébergé par l'université de l'Alberta et fournit l'accès aux microdonnées, de même qu'à un cadre géographique permettant la localisation, l'agrégation et l'analyse des données de recensement et des données contextuelles.

  • Glossaire

    Glossaire

    A

    Abacus
    Abacus Dataverse Network est le dépôt de données de recherche des services de données des bibliothèques de recherche de la Colombie-Britannique. Il s'agit d'une collaboration entre les bibliothèques de données de l'Université Simon-Fraser, de l'Université de la Colombie-Britannique, de l'Université Northern British Columbia et de l'Université de Victoria.
    Accès à distance en temps réel
    Un centre d'accès à distance en ligne qui permet aux utilisateurs abonnés d'exécuter en temps réel des programmes SAS portant sur des ensembles de microdonnées situées dans un emplacement central et sécurisé.
    ADTR
    Voir Accès à distance en temps réel.

    B

    Base de données et Modèle de simulation de politique sociale
    Un modèle de microsimulation statique disponible dans la collection de l'Initiative de démocratisation des données sous réserve d'une entente de concession de licence.
    Base de données sur les congés des patients
    La Base de données sur les congés des patients contient des fichiers analytiques de recherche sur les congés de patients des hôpitaux, y compris des codes pour les traitements et les diagnostics provenant de l'Institut canadien pour l'information sur la santé.
    BD/MSPS
    Base de données et Modèle de simulation de politique sociale.
    BDCP
    Voir Base de données sur les congés des patients.
    Bulletin de la Division de l'accès aux données
    Ce bulletin a pour but d'informer les abonnés et les utilisateurs sur les initiatives en cours dans la division.

    C

    CCE
    Voir Comité consultatif externe.
    CDR
    Voir Centre de données de recherche.
    Centre de données de recherche
    Les centres de données de recherche permettent aux chercheurs d'accéder, dans un milieu universitaire sécurisé, à des microdonnées d'enquêtes sur les ménages et sur la population.
    CHASS
    Voir Computing in the Humanities and Social Sciences.
    Cliché d'enregistrement
    Le cliché d'enregistrement fournit les noms des variables et la position de leurs colonnes dans le fichier de microdonnées.
    Comité consultatif externe
    Le premier rôle du comité consiste à conseiller l'Initiative de démocratisation des données (DLI) quant à la planification, la promotion et l'implantation des initiatives du programme de l'IDD.
    Comité de la diffusion des microdonnées 
    Le mécanisme de contrôle de la confidentialité de Statistique Canada pour la diffusion des fichiers de microdonnées.
    Comité de développement professionnel
    Le Comité de développement professionnel de l'Initiative de démocratisation des données relève du Comité consultatif externe et a pour tâche de planifier et d'élaborer un programme de formation pour les ateliers régionaux.
    Computing in the Humanities and Social Sciences
    Service informatique de la Faculté des sciences humaines et sociales de l'Université de Toronto.
    Confirmation d'achat
    Il s'agit de la confirmation d'achat fournie par Statistique Canada et acceptée par le client pour confirmer sa commande lorsque le montant total de la transaction est inférieur à 20 000 $ CAN.
    Continuum d'accès
    Un modèle de diffusion utilisé par Statistique Canada qui aide les utilisateurs à déterminer les différents niveaux d'accès aux données de Statistique Canada, dont fait partie l'Initiative de démocratisation des données.
    Coordonnateur régional de la formation
    Personne sélectionnée pour représenter sa région afin d'identifier les priorités en matière de formation et de mettre en œuvre la formation sur l'Initiative de démocratisation des données.
    CDP
    Voir Comité de développement professionnel.
    CRF
    Voir Coordonnateur régional de la formation.

    D

    Data Interest Group for Reference Services (en anglais)
    Le contenu des Data Interest Group for Reference Services, qui sont hébergés par l'Université de l'Alberta, repose d'abord sur les questions et les réponses du serveur de liste de l'IDD de 2004 à aujourd'hui.
    Dataverse de Scholars Portal
    La plateforme Dataverse de Scholars Portal est fournie par Scholars Portal pour le compte de l'Ontario Council of University Libraries et d'autres établissements participants.
    Dépôt des documents de formation
    Le Dépôt des documents de formation de l'Initiative de démocratisation des données (IDD) contient, sur plusieurs années, les documents des sessions de formation et les communications aux ateliers de l'IDD de même qu'à des conférences nationales et internationales.
    Dictionnaire de données
    Les dictionnaires de données servent à trouver des renseignements généraux sur les variables d'une enquête, le codage des variables, les alignements de valeurs manquantes et les fréquences.
    DIGRS
    Voir Data Interest Group for Reference Services.
    dlilist
    Le serveur de liste de l'Initiative de démocratisation des données (IDD) est le principal outil de communication pour la communauté IDD.
    Données
    Collection d'objets de données stockés sous forme électronique, selon une structure commune et accessible par ordinateur.
    Données administratives
    Renseignements recueillis par les organismes des secteurs public et privé dans le cadre de leurs activités courantes.
    Données agrégées
    Des statistiques organisées dans une structure de données qui sont stockées dans une base de données ou dans un fichier de données. La structure de données est fondée sur des totalisations organisées selon le temps, la géographie ou le contenu social.

    E

    Entente de licence ouverte de Statistique Canada
    L'entente de licence ouverte de Statistique Canada s'applique aux produits et services standards et personnalisés dans la collection de l'Initiative de démocratisation des données, à l'exception des fichiers des codes postaux, des fichiers de la Base de données sur les congés des patients ou de la Base de données et du Modèle de simulation de politique sociale.
    Établissements membres
    Les établissements membres sont les établissements d'enseignement postsecondaire qui adhèrent à l'Initiative de démocratisation des données.

    F

    FCCP
    Voir Fichier de conversion des codes postaux.
    Fichier de conversion des codes postaux
    Un fichier de données numériques permettant la correspondance entre les six caractères d'un code postal et les unités géographiques pour lesquelles des données du recensement et des statistiques sont produites.
    Fichier de microdonnées à grande diffusion
    Un fichier-maître qui a été modifié pour réduire au minimum la possibilité de divulgation de l'identité d'un répondant.
    Fichier lisez-moi
    Un guide de référence rapide sur le site de transfert électronique de fichiers de l'Initiative de démocratisation des données qui fournit une ventilation du contenu d'un dossier.
    Fichiers de commandes
    Ils définissent le fichier de microdonnées en fournissant le nom de l'ensemble de données, la position (emplacement et largeur des colonnes) des variables, les noms et étiquettes des variables, ainsi que les étiquettes de valeurs et la position des valeurs manquantes.
    Fichiers fictifs
    Les divisions auteures créent des fichiers fictifs en reproduisant le fichier-maître et en faussant les données. Les fichiers fictifs ne contiennent pas les données réelles et ne doivent jamais être utilisés pour l'analyse.
    Fichiers-maîtres
    Les fichiers-maîtres sont les ensembles de données soi-disant « pures » créés par la division auteure. Toutes les variables et tous les cas sont disponibles pour analyse dans le fichier-maître. Le fichier-maître n'est pas offert à tous les utilisateurs.
    Fichiers synthétiques
    Les divisions auteures créent ces fichiers en reproduisant le fichier-maître et en faussant les données. Les fichiers synthétiques ne contiennent pas les données réelles et ne doivent jamais être utilisés pour l'analyse.
    FMGD
    Voir Fichier de microdonnées à grande diffusion.
    FTP
    Un protocole de transfert de fichiers est un moyen de télécharger des fichiers.

    G

    Guide de l'utilisateur
    Le guide de l'utilisateur fournit des renseignements essentiels pour l'utilisation, l'analyse et l'interprétation du fichier de microdonnées.

    I

    ICIS
    Voir Institut canadien d'information sur la santé.
    IDD
    Voir Initiative de démocratisation des données.
    Infrastructure de recherche sur le Canada au 20e siècle
    Une base de données pancanadienne regroupant les données des recensements canadiens tenus entre 1911 et 1951.
    Initiative de démocratisation des données
    L'initiative de démocratisation des données est un partenariat entre Statistique Canada et les établissements d'enseignement postsecondaire visant à promouvoir et à faciliter la disponibilité des données de Statistique Canada et d'autres données canadiennes à des fins d'enseignement et de recherche universitaire.
    Institut canadien d'information sur la santé
    Un organisme autonome et sans but lucratif qui fournit de l'information essentielle sur le système de santé du Canada et la santé des Canadiens. L'Institut a partagé l'accès à des fichiers d'échantillon de la Base de données sur les congés des patients avec la communauté de l'Initiative de démocratisation des données.
    IRCS
    Voir Infrastructure de recherche sur le Canada au 20e siècle.

    L

    Licence de l'IDD
    Entente officielle entre Statistique Canada (programme de l'Initiative de démocratisation des données) et les établissements d'enseignement postsecondaire participants.
    Livres de codes
    Terme générique souvent employé pour décrire le guide de l'utilisateur, le cliché d'enregistrement et le dictionnaire de données ou des combinaisons de ces documents.

    M

    Métadonnées
    Les métadonnées correspondent à la documentation d'accompagnement des données. Elles aident les utilisateurs à interpréter différentes données et différents fichiers géographiques.
    Microdonnées
    Les microdonnées sont des données observées ou recueillies directement auprès d'une unité d'observation particulière.

    O

    Ontario Data Documentation, Extraction Service and Infrastructure Initiative ODESI est un référentiel numérique pour les données en sciences sociales. Il comprend les données de l'Initiative de démocratisation des données, ainsi qu'un éventail de sondages d'opinion publique créés par l'Ontario Council of University Libraries. Il est mis à la disposition des utilisateurs des bibliothèques ontariennes, mais les métadonnées sont librement accessibles.
    ODESI
    Voir Ontario Data Documentation, Extraction Service and Infrastructure Initiative.

    P

    Personne-ressource de l'IDD
    Point de contact principal entre les utilisateurs et le programme de l'Initiative de démocratisation des données.

    Q

    Questionnaire
    Un questionnaire est une liste de questions posées par le répondant à l'enquête.

    R

    Remplaçant IDD
    Un remplaçant est identifié par la personne-ressource de l'Initiative de démocratisation des données (IDD) pour l'assister dans ses fonctions IDD à l'établissement.

    S

    SAS
    Le système d'analyse statistique est un programme logiciel d'analyse statistique.
    SDA
    Survey Documentation and Analysis est ensemble de programmes pour la documentation et l'analyse Web de données d'enquête.
    Séance de formation régionale
    Cette formation est tenue dans quatre régions du Canada dans le but de préparer le personnel des services de données à aider les utilisateurs des établissements d'enseignement postsecondaire à accéder aux données de l'Initiative de démocratisation des données et à les utiliser.
    Séances de formation nationales
    Les séances de formation nationales sont tenues tous les quatre ans et permettent à la communauté de l'IDD de se rencontrer et d'en apprendre davantage sur les services de données. Elles aident également les utilisateurs des établissements d'enseignement postsecondaire à accéder à utiliser les données de l'IDD.
    Section de l'IDD
    La section de Statistique Canada qui est responsable de l'administration du partenariat de l'Initiative de démocratisation des données.
    SPSS Statistical
    Package for the Social Sciences est un programme logiciel d'analyse statistique.
    STATA
    STATA est un programme logiciel d'analyse statistique.

    T

    Tableaux de c.v.
    Tableaux de coefficients de variation qui sont utilisés pour évaluer la qualité des données.
    TEF
    Voir Transfert électronique de fichiers.
    Totalisation croisée
    La totalisation croisée regroupe des variables pour permettre de comprendre la corrélation entre différentes variables. Aussi appelée « tableau croisé ».
    Totalisations personnalisées
    Tableaux tirés de fichiers confidentiels qui sont spécialement traités par Statistique Canada moyennant des frais et qui sont également appelés « tableaux personnalisés ».
    Transfert électronique de fichiers
    Un service de Statistique Canada qui permet d'accéder aux données de l'Initiative de démocratisation des données au moyen d'un protocole de transfert des données.
Date de modification :

Processus de demande et lignes directrices - IDD

Pour présenter une demande d’adhésion au Programme de l’Initiative de démocratisation des données (IDD), il faut remplir le formulaire de « Initiative de démocratisation des données (IDD) – Convention d’adhésion ».

Si vous souhaitez accéder aux fichiers de conversion des codes postaux (FCCP), à la Base de données et Modèle de simulation de politiques sociales (BD/MSPS) ou à la Base de données sur les congés des patients (BDCP), veuillez remplir les formulaires des sections 1, 2 et 3.

Documents justificatifs à joindre à la demande

Vous trouverez ci-joint les items sélectionnés pour votre abonnement :