Legacy Content

Classification des commentaires sur le Recensement de 2021

Par : Joanne Yoon, Statistique Canada

Tous les cinq ans, le Recensement de la population permet de brosser un portrait statistique complet du Canada et de sa population. Le recensement est la seule source de données qui fournit des statistiques uniformes pour les petites régions géographiques et les petits groupes démographiques partout au Canada. Les renseignements obtenus dans le cadre du recensement sont cruciaux pour la planification à tous les échelons. Que ce soit pour démarrer une entreprise, surveiller un programme gouvernemental, planifier les besoins en transport ou choisir l'emplacement d'une école, les Canadiens se servent des données du recensement chaque jour afin de prendre des décisions éclairées.

Classification des commentaires sur le recensement de 2021

La préparation de chaque cycle du recensement nécessite plusieurs étapes de mobilisation, ainsi que la mise à l'essai et l'évaluation des données afin de recommander le contenu du prochain recensement, comme celui de 2021 qui aura bientôt lieu. Ces étapes comprennent des consultations et des discussions sur le contenu avec les intervenants et les utilisateurs des données du recensement, ainsi que l'exécution du Test du recensement de 2019 (qui permet de valider les comportements des répondants et de garantir que les questions et les documents du recensement sont compris par tous les participants).

À la fin des questionnaires du Recensement de la population, les répondants ont accès à une zone de texte dans laquelle ils peuvent partager leurs préoccupations et leurs suggestions, ou formuler des commentaires au sujet des étapes à suivre, du contenu ou des caractéristiques du questionnaire. Les renseignements saisis dans cet espace sont analysés par le Secrétariat des domaines spécialisés du recensement (SDSR) pendant et après la période de collecte des données du recensement. Les commentaires au sujet du contenu du questionnaire sont classés par domaine spécialisé (DS), tel que l'éducation, le travail ou la démographie, et communiqués aux analystes experts correspondants. Les renseignements sont utilisés pour appuyer la prise de décision au sujet de la détermination du contenu pour le prochain recensement et pour surveiller des facteurs tels que le fardeau du répondant.

Utilisation de l'apprentissage automatique pour classer les commentaires

Dans le but d'améliorer l'analyse des commentaires formulés dans le cadre du Recensement de la population de 2021, la Division de la science des données (DScD) de Statistique Canada a travaillé en collaboration avec le SDSR pour créer une preuve de concept sur l'utilisation des techniques d'apprentissage automatique (AA) visant à classer rapidement et en toute objectivité les commentaires. Dans le cadre du projet, le SDSR a déterminé 15 catégories de commentaires possibles et a fourni des commentaires formulés lors du recensement précédent et étiquetés selon l'une ou plusieurs de ces catégories. Ces 15 catégories comprenaient les domaines spécialisés du recensement ainsi que d'autres thèmes généraux liés au recensement en fonction desquels il est possible de classer les commentaires formulés par les répondants, comme « expérience avec le formulaire électronique », « fardeau du répondant » ainsi que « expérience du recensement positive » et des commentaires « non reliés au recensement ». En utilisant les techniques de l'AA avec les données étiquetées, un classificateur de texte bilingue semi-supervisé a été formé, dans lequel les commentaires peuvent être en français ou en anglais, et où la machine peut utiliser les données étiquetées pour apprendre à reconnaître chaque catégorie, tout en profitant des données non étiquetées pour comprendre son espace de donnée. Les scientifiques des données de la DScD ont mené des expériences avec deux modèles d'AA, et les forces de chacun des modèles, ainsi que le modèle final, sont présentés en détail dans cet article.

Les scientifiques des données ont formé le Classificateur de commentaires pour le Recensement de 2021 en utilisant les commentaires formulés lors du Test du recensement de 2019. L'équipe du SDSR a étiqueté manuellement ces commentaires en utilisant les quinze catégories de commentaires qui avaient été déterminées et a mutuellement révisé leur codage en vue de réduire les biais de codage. Le classificateur est à catégories multiples, car un commentaire peut être classé dans 15 catégories différentes. Par conséquent, ce classificateur est aussi à étiquettes multiples puisqu'un répondant peut écrire un commentaire qui porte sur de multiples sujets qui s'inscrivent dans de multiples catégories, et le commentaire peut donc être codé selon une ou plusieurs catégories.

Mise en correspondance déterministe de numéro de question et de numéro de page

Lorsqu'un commentaire comporte un numéro de question ou de page, ce numéro est mis en correspondance de façon déterministe à la catégorie du domaine spécialisé associée à la question et combiné ensuite avec la prévision de catégorie par apprentissage automatique (AA) afin de produire la prévision de catégorie finale. Par exemple, supposons qu'un répondant remplit un questionnaire dans lequel la question numéro 22 porte sur ses études. Dans la zone de commentaires, le répondant ajoute des commentaires sur la question 22 en indiquant expressément le numéro de la question et mentionne aussi les questions sur le sexe et le genre sans indiquer les numéros des questions. La mise en correspondance donne comme résultat la catégorie sur l'éducation, et le modèle d'AA prédit la catégorie sur le sexe et le genre en fonction des mots utilisés pour mentionner les questions sur le sexe et le genre. Le programme produit la prévision finale, qui est une union des deux produits : catégorie sur l'éducation et catégorie sur le sexe et le genre. Quand aucun numéro de question ou de page n'est expressément mentionné, le programme produit uniquement la prévision de l'AA. Le modèle de l'AA n'est pas formé pour apprendre la mise en correspondance du numéro de page de chaque question, car l'emplacement d'une question peut varier selon le format du questionnaire. Il y a par exemple des questions sur différentes pages lorsque vous comparez la police de caractère régulière et les questionnaires à gros caractères, car il y a moins de questions par page avec de gros caractères, et le questionnaire électronique ou en ligne n'affiche aucun numéro de page.

Nettoyage de textes

Avant de former le classificateur, le programme nettoie d'abord les commentaires. Il détermine la langue du commentaire (français ou anglais) et corrige ensuite l'orthographe des mots non identifiables au moyen d'un mot qui nécessite le moins de vérifications et que l'on trouve le plus souvent dans les données d'entraînement. Par exemple, le mot vilse peut être corrigé pour utiliser les mots valides valse ou ville, mais il sera remplacé par ville, car ville a été utilisé plus fréquemment dans les données d'entraînement. De plus, les mots sont regroupés par lemmatisation dans leur représentation de base. La machine comprend alors que les mots marcher et marché ont la même signification à la base. Les mots vides (stop words) ne sont pas retirés, car les mots auxiliaires ont une signification et ajoutent un sentiment. Par exemple, cela devrait être mieux ne signifie pas la même chose que cela est mieux, mais si le programme retirait tous les mots vides (y compris cela, devrait, être et est), les deux phrases deviendraient identiques et il ne resterait qu'un mot : mieux. Le retrait des mots vides peut modifier la signification et le sentiment d'un commentaire.

Classificateur de texte bilingue semi-supervisé

Le classificateur de texte bilingue semi-supervisé apprend des commentaires étiquetés et est utilisé pour classer les commentaires. Le classificateur de texte bilingue semi-supervisé n'est pas un concept unique, mais plutôt des parties individuelles combinées pour mieux classer les commentaires formulés lors du recensement.

Les scientifiques des données ont formé un modèle bilingue dans lequel la proportion de commentaires étiquetés en français par rapport à l'anglais, tels que détectés par un langage de programmation Python, était de 29 % et 71 %, respectivement (16 062 commentaires étiquetés en anglais et 6 597 commentaires étiquetés en français). En formant le modèle en fonction des deux langues, ce dernier a profité des mots identiques (comme consultation, journal et restaurant) qui ont la même signification dans les deux langues pour améliorer l'exactitude des commentaires en français qui ont moins d'étiquettes que les commentaires en anglais.

Le modèle est semi-supervisé. Les données étiquetées déterminent le savoir que la machine doit reproduire. Lorsqu'il reçoit les données de formation étiquetées, le modèle utilise le maximum de vraisemblance pour apprendre les paramètres du modèle et la formation contradictoire pour être robuste face aux petites perturbations. Les données non étiquetées sont aussi utilisées pour élargir l'espace de données que la machine devrait gérer avec peu de confusion, mais n'apprennent pas au modèle la signification des catégories. Les données non étiquetées sont utilisées uniquement pour réduire la confusion du modèle en utilisant la minimisation de l'entropie pour minimiser l'entropie conditionnelle des probabilités de catégories estimées et la formation contradictoire virtuelle pour maximiser le lissage local d'une répartition d'étiquettes conditionnelles par rapport à la perturbation locale.

Le classificateur de texte commence avec une première transformation pour accepter les mots comme données d'entrée. Un tableau de consultation mettra en correspondance chaque mot avec un vecteur dense, car la machine apprend à partir des chiffres et non des caractères. La transformation présentera une séquence de mots en séquence de vecteurs. À partir de cette séquence, le modèle cherche un schéma qui est plus généralisable et plus robuste que d'apprendre chaque mot individuellement. De plus, pour empêcher la machine de mémoriser certaines expressions plutôt que la signification sémantique, une étape d'élimination suit directement la première transformation. Lors de l'entraînement, l'étape d'élimination retire des mots aléatoirement de la phrase de formation. La proportion de mots retirés est fixe, mais les mots retirés sont sélectionnés au hasard. Le modèle est forcé d'apprendre sans certains mots, de sorte qu'il effectue une meilleure généralisation. Lors de l'utilisation du modèle pour classer les commentaires, aucun mot n'est mis de côté et le modèle peut utiliser toute la connaissance et tous les schémas détectés pour faire une prévision.

Comparaison du réseau de neurones à convolution à la mémoire à long-court terme bidirectionnelle

Les scientifiques des données ont comparé un réseau de neurones à convolution (RNC) à un réseau de mémoire à long-court terme bidirectionnelle (MLCT-Bi). Les deux réseaux peuvent classer le texte en apprenant automatiquement des schémas complexes, mais ils apprennent différemment, en raison de leurs structures différentes. Dans cette preuve de concept, les scientifiques des données ont mené une expérience avec trois modèles différents pour apprendre les 15 catégories : un modèle de MLCT simple, un modèle de MLCT multiple et un modèle de RNC multiple. Dans l'ensemble, le modèle de MLCT simple a prévu avec constance toutes les catégories avec le plus d'exactitude et sera donc utilisé dans la production.

Le réseau de MLCT peut saisir les dépendances à long terme entre les séquences de mots en utilisant des mécanismes (gates) appliqués aux données d'entrée, d'oubli et de sortie, car il peut apprendre à retenir ou à oublier l'information sur l'état précédent. L'information sur l'état précédent est le contexte créé par le groupe de mots qui précédait le mot actuel sur lequel le réseau se penche. Si le mot actuel est un adjectif, le réseau sait à quoi réfère l'adjectif, car il a retenu cette information précédemment à l'intérieur de la phrase. Si la phrase parle d'un sujet différent, le réseau devrait oublier l'état précédent de l'information. Puisque la MLCT-Bi est bidirectionnelle, le modèle recueille l'information précédente et future sur chaque mot.

Le modèle de RNC applique un filtre de convolution à une fenêtre mobile de groupe de mots et de regroupement maximum pour sélectionner l'information la plus importante d'une séquence de mots plutôt que d'analyser chaque mot séparément. Le RNC définit le contexte sémantique d'un mot en utilisant les mots qui l'accompagnent, tandis que la MLCT apprend à partir d'un schéma séquentiel de mots. Les caractéristiques individuelles sont concaténées pour former un vecteur de caractéristiques uniques qui résume les caractéristiques principales de la phrase d'entrée.

Un classificateur multiple a été mis à l'essai avec une couche sigmoïde finale donnant une répartition du niveau de confiance associé aux catégories. La couche sigmoïde représentera la cote de confiance de prévision de chaque catégorie sous forme de pourcentage entre 0 et 1 (c.-à-d., 0 % - 100 %) où les cotes sont toutes dépendantes l'une de l'autre. Cela est idéal pour le problème des étiquettes multiples pour les commentaires qui abordent de multiples sujets.

Les scientifiques des données ont aussi mis à l'essai un classificateur simple où un modèle apprend uniquement à déterminer si une seule catégorie est présente dans le texte au moyen d'une fonction d'activation softmax. Le nombre de classificateurs uniques est égal au nombre de catégories. Un commentaire d'entrée peut avoir de multiples étiquettes si de multiples classificateurs prévoient que son sujet est mentionné dans le commentaire. Par exemple, si un commentaire porte sur la langue et l'éducation, le classificateur de langue et le classificateur d'éducation prévoiront 1 pour signaler la présence des catégories de domaine spécialisé pertinentes et d'autres classificateurs prévoiront 0 pour signaler l'absence.

Un classificateur simple apprend chaque catégorie mieux qu'un classificateur multiple, qui doit apprendre 15 catégories différentes, mais il y a le fardeau supplémentaire pour les programmeurs de tenir à jour 15 classificateurs différents. Le fardeau d'exécuter les classificateurs multiples est minimal, car il est facile d'effectuer la programmation visant à exécuter tous les classificateurs dans une boucle et indiquer la pertinence de chaque catégorie. Comme il est indiqué dans le tableau, le modèle de MLCT-Bi simple donne les meilleurs résultats au sein des différentes catégories et sur le plan de la moyenne pondérée.

Tableau 1 : Moyenne pondérée des cotes F1 du test pour différents modèles

Tableau 1 : Moyenne pondérée des cotes F1 du test pour différents modèles
  cotes F1
MLCT-Bi simple 90,2 %
RNC multiple 76 %
MLCT-Bi 73 %

Parmi les classificateurs multiples, le RNC a eu une cote F1 moyenne du test supérieure de 4,6 % à celle de la MLCT-Bi lors de la classification des commentaires en catégories de domaine spécialisé comme la langue et l'éducation. Par contre, la cote F1 moyenne du test du modèle de la MLCT-Bi pour les catégories générales de thèmes du recensement (c.-à-d. « non relié au recensement », « expérience du recensement positive », « fardeau du répondant », « expérience avec le formulaire électronique ») était supérieure de 9,0 % au modèle du RNC. La MLCT-Bi était meilleure pour prévoir si un commentaire était pertinent ou non pour le Programme du recensement, parce qu'elle connaissait le contexte global de l'intention du sentiment. Par exemple, l'opinion d'un répondant au sujet d'une équipe sportive canadienne n'est pas pertinente dans le cadre du recensement, alors ce type de commentaire serait classé dans la catégorie « non relié au recensement ». Dans ce cas, le modèle de RNC prédisait le commentaire comme étant de nature positive et, ainsi, le classait dans la catégorie d'expérience du recensement positive, tandis que la MLCT-Bi a relié le sentiment positif au contexte (équipes sportives); puisque le contexte n'était pas relié au recensement, elle l'a correctement étiqueté comme étant non pertinent aux fins d'analyse supplémentaire par le SDSR. Le RNC, en revanche, examine un éventail plus petit de mots, alors il excelle dans l'extraction de caractéristiques dans certaines parties de la phrase qui sont pertinentes à certaines catégories.

Prochaines étapes

Cette preuve de concept a permis de montrer qu'un modèle d'apprentissage automatique (AA) peut classer avec exactitude les commentaires bilingues formulés dans le cadre du recensement. Le classificateur est à catégories multiples, ce qui signifie qu'il y a de multiples catégories dans lesquelles classer un commentaire. Il est aussi à multiples étiquettes, ce qui signifie que plus d'une catégorie peut être applicable au commentaire d'entrée. La deuxième étape de ce projet sera le passage de ce modèle à la production. En production, les commentaires en français et en anglais feront l'objet d'une vérification grammaticale et seront reliés aux racines des mots en fonction de la langue utilisée pour formuler chaque commentaire. Un classificateur de texte bilingue semi-supervisé servira à prédire la nature des commentaires nettoyés en français et en anglais. Les données étiquetées de 2019 seront utilisées pour entraîner le modèle d'AA à faire ses prédictions et à étiqueter les commentaires qui proviendront du nouveau Recensement de la population de 2021 et ainsi garantir que les commentaires des répondants sont catégorisés et communiqués aux analystes experts appropriés. À l'étape de production, lorsque les commentaires du Recensement de 2021 arriveront, l'équipe du SDSR et les scientifiques des données continueront de valider les prévisions de l'AA et les retourneront à la machine pour améliorer encore le modèle.

Si vous êtes intéressé par l'analyse des textes, ou souhaitez en savoir davantage sur ce projet en particulier, un membre de la Communauté de pratique sur l'apprentissage automatique appliqué pour l'analyse des textes (employés du GC seulement) a récemment fait une présentation sur le projet. Joignez-vous à la communauté pour poser des questions ou discuter de d'autres projets en analyse des textes.

Date de modification :
Legacy Content

Une brève enquête sur les technologies liées à la protection de la vie privée

Par : Zachary Zanussi, Statistique Canada

À titre d'organisme, Statistique Canada a toujours cherché à adopter rapidement de nouvelles technologies et à faire preuve d'innovation sur le plan des méthodes. Les technologies de données volumineuses, comme l'apprentissage profond, ont augmenté l'utilité des données de manière exponentielle. L'infonuagique a été un instrument qui a permis à cette situation de se produire, tout particulièrement lorsqu'on utilise des données non confidentielles. Cependant, les calculs à partir de données de nature délicate non chiffrées dans un environnement infonuagique pourraient exposer les données à des menaces en matière de confidentialité et à des attaques liées à la cybersécurité. Statistique Canada a adopté des mesures strictes en matière de politique sur la protection des renseignements personnels qui ont été élaborées suite à des décennies de collecte de données et de diffusion de statistiques officielles. Pour tenir compte des nouvelles exigences en ce qui a trait à l'exploitation infonuagique, nous envisageons d'adopter une catégorie de nouvelles techniques cryptographiques, dites technologies liées à la protection de la vie privée (TPVP), qui peuvent aider à accroître l'utilité, en tirant davantage profit des technologies, comme le nuage ou l'apprentissage automatique, tout en continuant d'assurer la position de l'organisme en matière de sécurité. Ce billet présente brièvement un certain nombre de ces TPVP.

Description - Figure 1 Accroître l'utilité dans l'équation protection de la vie privée contre utilité. La ligne rouge pleine montre l'équilibre entre la protection de la vie privée et l'utilité avec des méthodes classiques, tandis que la ligne verte pointillée montre le résultat qu'on espère obtenir avec les nouvelles technologies de protection de la vie privée.

Qu'entend-on par protection de la vie privée? Par protection de la vie privée, on entend le droit des personnes de contrôler ou d'influencer quels renseignements à leur sujet peuvent être recueillis, utilisés et stockés et par qui, ainsi que les entités auxquelles ces renseignements peuvent être divulgués. À titre d'organisme national de la statistique au Canada, la plupart des données qu'utilise Statistique Canada sont fournies par des répondants, comme une personne ou une entreprise. La confidentialité des données est protégée au moyen des cinq principes de protection (en anglais seulement), afin d'assurer le respect de la vie privée des répondants en veillant à ce que les données qu'ils fournissent ne puissent pas permettre de les identifier directement ou à partir de données statistiques. Vous trouverez davantage d'information sur l'approche de Statistique Canada en matière de protection de la vie privée en consultant le Centre de confiance de Statistique Canada.

Une atteinte à la vie privée implique qu’un pirate réussit à identifier une réponse et à l'attribuer à un répondant en particulier. On considère les données des répondants comme les intrants de certains processus statistiques qui produisent des extrants. Si un pirate a accès aux données d'entrée, il s'agit d'une atteinte à la confidentialité à l'entrée, alors que, si le pirate peut recréer par ingénierie inverse les données sur la vie privée à partir des données de sortie, il s'agit d'une atteinte à la confidentialité à la sortie. On peut empêcher ces deux types d'atteintes au moyen de méthodes statistiques classiques, comme la préservation de l'anonymat, dans le cadre de laquelle on supprime les caractéristiques potentielles d'identification des données; ou la perturbation, dans le cadre de laquelle on modifie les valeurs des données d'une certaine manière pour empêcher toute nouvelle identification exacte. Malheureusement, ces méthodes classiques font en sorte de sacrifier forcément l'utilité des données, tout particulièrement les données de nature délicate. En outre, il existe de nombreux exemples d'identifications qui prouvent que ces techniques classiques n'offrent pas nécessairement les garanties voulues en matière de sécurité cryptographiqueNote de bas de page 1, Note de bas de page 2. L'objectif est de tirer avantage des TPVP pour maintenir des attributs de protection de la vie privée stricts tout en préservant autant que possible l'utilité. À la fin, on améliore effectivement l'utilité dans l'équation protection de la vie privée contre utilité.

La confidentialité différentielle pour préserver la confidentialité à la sortie

Description - Figure 2 Légende de la figure : Dans le cas de la confidentialité différentielle, les données de sortie d'un algorithme pour des ensembles de données très semblables devraient correspondre à une valeur convenue désignée par le nom epsilon. Dans ce cas-ci, l'ajout du répondant du centre (magenta) modifie la sortie de ƒ d'une quantité limitée à ε.

La confidentialité à la sortie des répondants est protégée en tenant attentivement compte des résultats des statistiques agrégées. Par exemple, un adversaire pourrait rétablir les données d'entrée en réalisant une analyse attentive des statistiques publiées. Dans le même ordre d'idées, si le public peut interroger une base de données sécurisée, alors que cet accès lui permet de demander des statistiques simples (moyenne, maximum, minimum et autres) sur des sous-ensembles de la base de données, un adversaire pourrait faire une utilisation abusive de ce système pour extraire des données d'entrée. La confidentialité différentielle réduit ce risque, car on ajoute du « bruit » aux données d'entrée ou de sortie. Du premier coup d'œil, il s'agit tout simplement d'un exemple de perturbation des données qu'on utilise dans le cadre des statistiques officielles depuis des décennies. On a perfectionné la technique en adoptant une formule mathématique rigoureuse de confidentialité différentielle, qui permet d'évaluer avec précision le point exact où un algorithme se trouve sur l'échelle « Protection de la vie privée – Utilité » au moyen d'un paramètre ε, ou epsilon.

Un algorithme porte le nom ε-différentiellement privé si l'exécution de l'algorithme dans deux bases de données dont seulement une entrée est différente produit des résultats qui diffèrent de moins de ε. De manière informelle, cela signifie qu'un adversaire qui emploie la même statistique provenant de différents sous-ensembles d'une base de données peut seulement inférer une certaine quantité de renseignements de la base de données liée par ε. En pratique, avant la diffusion de statistiques, on détermine le niveau de protection de la vie privée requis pour établir ε. On ajoute ensuite du « bruit aléatoire » aux données, jusqu'à ce que les algorithmes ou statistiques à calculer soient ε-différentiellement privés. Au moyen de la confidentialité différentielle, on garantit une meilleure protection des données de sortie tout en maximisant l'utilité.

Les calculs privés comme moyen de protéger la confidentialité à l'entrée

Le terme « calculs privés » est un terme général qui renvoie à un certain nombre de différents cadres pour calculer les données de manière sécurisée. Par exemple, supposons que vous avez des données privées pour lesquelles vous aimeriez réaliser une forme de calcul. Cependant, vous n'avez pas accès à un environnement de calcul sécurisé. Vous pourriez donc souhaiter utiliser le chiffrement homomorphique. Supposons, aussi, que vous et de nombreux pairs souhaitez réaliser un calcul partagé de vos données sans les partager entre vous. Vous pourriez avoir recours, dans ce cas-ci, au calcul sécurisé multi-parties. Ces deux paradigmes de calcul sécurisé seront examinés de manière plus approfondie ci-dessous.

En raison des avancées récentes en infonuagique, les personnes et les organisations ont un accès jamais vu à des environnements infonuagiques puissants et abordables. Cependant, la plupart des fournisseurs de services nuagiques ne garantissent pas la sécurité des données lors de leur traitement. Cela signifie que le nuage est encore hors de portée pour de nombreuses organisations disposant de données privées de nature très délicate. Le chiffrement homomorphique (CH) pourrait changer la donne. Tandis que les données doivent être déchiffrées avant et après utilisation (chiffrement au repos) avec les algorithmes de chiffrement classiques, dans le cadre du CH, les calculs peuvent être effectués directement au moyen de données chiffrées. Les résultats des calculs peuvent être dévoilés uniquement après déchiffrement. Le titulaire des données peut donc chiffrer ses données et les envoyer dans le nuage en sachant qu'elles sont protégées de manière cryptographique. Le nuage peut réaliser les calculs souhaités de manière homomorphique et retourner les résultats chiffrés. Seul le titulaire des données peut déchiffrer et consulter les données. De cette manière, le client peut confier ses calculs dans le nuage sans reposer sur sa relation de confiance pour savoir que ses données sont protégées. Ses données sont sécurisées grâce au chiffrement! Malheureusement, le CH augmente la complexité des calculs, dans une mesure qui peut être beaucoup plus élevée que les calculs non chiffrés correspondants.

Supposons qu'un certain nombre d'hôpitaux ont des données au sujet de patients ayant une maladie rare. S'ils regroupent leurs données, ils pourraient réaliser des calculs qui pourraient les aider à mettre en application des stratégies de prévention et de traitement. Dans de nombreux pays, les lois exigent que les établissements médicaux protègent les données médicales de leurs patients. Dans le passé, il n'y avait qu'une seule solution à ce problème, c'est-à-dire faire en sorte que tous les hôpitaux s'entendent sur une seule autorité de confiance qui recueillerait les données et réaliserait les calculs. Aujourd'hui, les hôpitaux pourraient mettre en place le calcul (sécurisé) multi-parties (CMP). Au moyen du CMP, les hôpitaux peuvent collaborer et réaliser conjointement leurs calculs sans partager leurs données d'entrée avec quiconque. Il n'est donc pas nécessaire de faire appel à une autorité de confiance, car les données personnelles d'entrée sont protégées même si des hôpitaux étaient « malhonnêtes ». On met habituellement en œuvre des protocoles de CMP au moyen de multiples rondes de « partage secret », dans le cadre desquelles chaque partie dispose d'une composante d'un calcul plus petit qu'elle utilise pour effectuer un calcul de plus grande envergure. Malheureusement, le CMP augmente la complexité des calculs, mais pas autant que le CH. En outre, les protocoles exigent habituellement de multiples rondes de communications interactives.

Apprentissage échelonné

Les réseaux neuronaux et l'intelligence artificielle sont peut-être les deux technologies qui ont été les plus prospères à l'époque des données volumineuses. Au lieu de préparer un programme pour réaliser une tâche, des données sont saisies dans une machine, et un modèle entraîné est utilisé pour réaliser la tâche. La collecte de données devient l'aspect le plus important du processus. Comme mentionné ci-dessus, ce processus de collecte peut être prohibitif lorsque les données sont réparties et de nature délicate. L'apprentissage échelonné fait partie des protocoles de CMP qui cherchent à entraîner un modèle utilisant des données appartenant à de multiples parties qui souhaitent garder leurs données privées. Deux protocoles qui mettent en œuvre ce processus de manière légèrement différente, à savoir l'apprentissage fédéré et l'apprentissage divisé, seront abordés. En ce qui a trait au reste de cette section, on suppose que les utilisateurs ont une connaissance de base de la manière d'entraîner un réseau neuronal.

À la base de ces deux protocoles se trouve une même formule; de multiples parties ont accès à des données qu'elles jugent délicates. Un serveur d'autorité centrale non fiable les aidera. Les parties s'entendent sur une architecture de réseau neuronal qu'elles souhaitent entraîner, ainsi que sur d'autres caractéristiques particulières, comme les hyperparamètres. À cette étape-ci, les deux concepts divergent.

Description - Figure 3 En apprentissage fédéré, chaque titulaire de données calcule des gradients pour ses données, avant de les envoyer à une autorité centrale qui calcule ∇ et les redistribue à chaque partie. De cette manière, chaque partie peut obtenir un réseau neuronal entraîné pour tenir compte de l'union des ensembles de données, sans partager les données.

Dans le cas de l'apprentissage fédéré, chaque partie dispose d'une copie locale identique du réseau qu'elle entraîne. Les parties réalisent chacune une époque d'entraînement de leur réseau, avant d'envoyer les gradients à l'autorité. L'autorité coordonne ces gradients et demande à chaque partie de mettre à jour ses modèles locaux en combinant les renseignements tirés des données de chaque partie. Le processus est ensuite répété pour le nombre souhaité d'époques, alors que l'autorité et chaque partie disposent finalement d'une version entraînée du réseau qu'elles peuvent utiliser comme bon leur semble. Les réseaux obtenus sont identiques. Le processus ne révèle aucun autre renseignement sur les données que les gradients accumulés qui ont été calculés par chaque partie. Cette situation pourrait éventuellement faciliter les attaques. Il faut en tenir compte lors de la mise en œuvre d'un cadre d'apprentissage fédéré.

Description - Figure 4 Dans le cadre de l'apprentissage divisé, le réseau souhaité est « divisé » entre les parties et le serveur. La propagation avant va vers le haut en bleu foncé. La rétropropagation va vers le bas en magenta. Chaque partie réalise une propagation avant jusqu'à la division, avant d'envoyer le résultat au serveur, qui réalise une propagation avant et une rétropropagation à nouveau, envoyant les gradients aux parties respectives qui peuvent mettre leurs réseaux à jour.

Dans l'apprentissage divisé, le réseau neuronal est divisé par l'autorité à une certaine couche. Les couches découlant de la division sont partagées avec les parties. Chaque partie produit ses données jusqu'à la division, avant d'envoyer les activations à la couche de division au serveur. Le serveur achève la propagation avant pour le reste du réseau, puis réalise une rétropropagation jusqu'à la division, avant d'envoyer les gradients aux parties qui peuvent ensuite achever une rétropropagation et mettre à jour leur copie du réseau. Après le nombre souhaité d'époques, l'autorité répartit la moitié de son réseau à chaque partie. Chaque partie dispose ainsi de sa propre copie de l'ensemble du réseau, dont la section inférieure de chaque réseau est adaptée explicitement à ses données. Les seules données exposées sont celles qui ont été inférées à partir des activations et des gradients échangés à chaque époque. Les couches sous la division servent à modifier les données suffisamment pour veiller à ce qu'elles soient protégées (appelé parfois « écrasement » des données), tout en permettant au serveur de recueillir des renseignements de celles-ci.

Cet article a porté sur un certain nombre de nouvelles technologies de protection de la vie privée, ainsi que sur la manière dont elles peuvent accroître l'utilité des données sans exposer davantage la vie privée des personnes les ayant fournies. Les prochaines publications étudieront de manière plus approfondie certaines de ces technologies. Demeurez à l'affût! Prochainement nous allons étudier de manière plus approfondie le chiffrement homomorphique, de la mathématique des treillis aux applications.

Souhaitez-vous être tenu au courant de ces nouvelles technologies? Voulez-vous faire état de vos travaux dans le domaine de la protection de la vie privée? Consultez la page GCConnex de notre communauté de pratique sur les technologies de protection de la vie privée, afin de discuter de ces publications sur la protection de la vie privée du Réseau de la science des données, d'interagir avec des pairs qui s'intéressent à la protection de la vie privée, et de partager des ressources et des idées avec la communauté. Vous pouvez également commenter ce billet ou fournir des suggestions de publications futures dans le cadre de la série de publications.

Date de modification :
Legacy Content

Utilisation de l'apprentissage automatique pour prédire le rendement des cultures

Par : Kenneth Chu, Statistique Canada

La Division de la science des données (DScD) de Statistique Canada a récemment terminé un projet de recherche pour la Série de rapports sur les grandes cultures (SRGC, ou Enquête sur les grandes cultures, EGC) Note de bas de page 1 portant sur l'utilisation des techniques d'apprentissage automatique (plus précisément, les techniques de régression supervisée) afin de prédire le rendement des cultures en début de saison.

L'objectif du projet était d'étudier si les techniques d'apprentissage automatique pouvaient être utilisées pour améliorer la précision de la méthode actuelle de prédiction du rendement des cultures (appelée la méthode de référence).

Deux grands défis se posaient : (1) comment intégrer toute technique de prédiction (apprentissage automatique ou autre) à l'environnement de production des EGC selon une méthodologie solide, et (2) comment évaluer toute méthode de prédiction de façon utile dans le contexte de production des EGC.

Pour le point (1), le protocole de validation de la fenêtre mobile progressive Note de bas de page 2 (initialement conçu pour un apprentissage supervisé à partir de données de série chronologique) a été adapté pour éviter la fuite de renseignements temporels. Pour le point (2), l'équipe a choisi de procéder à une vérification en examinant la série réelle d'erreurs de prédiction obtenue dans le cas d'un déploiement sur des cycles de production passés.

Motivation

Traditionnellement, la SRGC publie des estimations annuelles du rendement des cultures à la fin de chaque année de référence (peu après les récoltes). De plus, les prédictions du rendement des cultures pour l'année complète sont diffusées plusieurs fois au cours de l'année de référence. On communique avec les exploitants agricoles en mars, juin, juillet, septembre et novembre aux fins de collecte des données, leur imposant un lourd fardeau de réponse.

En 2019, pour la province du Manitoba, une méthode fondée sur un modèle (essentiellement une sélection de variables par la méthode LASSO [en anglais Least Absolute Shrinkage and Selection Operator] suivie d'une régression linéaire robuste) a été proposée pour générer les prédictions de juillet à partir d'observations satellites longitudinales des niveaux de végétation locaux ainsi que des mesures météorologiques régionales. La question sur la prédiction du rendement des récoltes a pu être retirée du questionnaire de l'EGC de juillet pour le Manitoba, ce qui a réduit le fardeau de réponse.

Technique de régression de base : XGBoost et apprenants de base linéaires

Plusieurs techniques de prédiction ont été examinées, notamment les forêts d'arbres décisionnels, les machines à vecteur de support, les modèles linéaires généralisés elastic-net standardisés et les perceptrons multicouches. Des considérations relatives à l'exactitude et au temps de calcul nous ont menés à concentrer notre attention sur XGBoost Note de bas de page 3, combiné aux apprenants de base linéaires.

Validation de la fenêtre mobile progressive pour éviter les fuites de renseignements temporels

La principale contribution de ce projet de recherche est l'adaptation de la validation de la fenêtre mobile progressive (RWFV) Note de bas de page 2 comme protocole d'ajustement d'hyperparamètres. La validation RWFV est un cas particulier de validation progressive Note de bas de page 2; il s'agit d'une famille de protocoles de validation conçus pour éviter la fuite de renseignements temporels pour un apprentissage supervisé fondé sur des données de série chronologique.

Supposons que vous formiez un modèle de prédiction en vue d'un déploiement pour le cycle de production de 2021. L'illustration suivante présente un schéma de validation de la fenêtre mobile progressive, selon une fenêtre d'entraînement de cinq ans et une fenêtre de validation de trois ans.

Description - Figure 1 Exemple d'un système de validation par fenêtre mobile progressive. Cette figure représente, à titre d'exemple, un système de validation à fenêtre mobile progressive avec une fenêtre de formation de cinq ans et une fenêtre de validation de trois ans. Un modèle de validation de ce type est utilisé pour déterminer la configuration optimale des hyperparamètres à utiliser lors de la formation du modèle de prédiction réel qui sera déployé en production.

La case bleue au bout du schéma représente le cycle de production de 2021 et les cinq cases blanches à sa gauche correspondent à la fenêtre d'entraînement de cinq ans qui est utilisée. Cela signifie que les données d'entraînement pour le cycle de production de 2021 seront celles portant sur les cinq années la précédant strictement et immédiatement (2016 à 2020). Pour la validation, ou l'ajustement d'hyperparamètres, pour le cycle de production de 2021, les trois cases noires au-dessus de la case bleue correspondent à notre choix d'une fenêtre de validation de trois ans.

Le protocole RWFV est utilisé pour choisir la configuration optimale à partir de l'espace de recherche d'hyperparamètres, comme suit :

  • fixer temporairement une configuration candidate arbitraire d'hyperparamètres provenant de l'espace de recherche;
  • utiliser cette configuration pour former un modèle pour l'année de validation de 2020 à l'aide de données provenant des cinq années de 2015 à 2019;
  • utiliser ce modèle formé obtenu pour fournir des prédictions pour l'année de validation de 2020; calculer en conséquence les erreurs de prédiction au niveau de la parcelle pour 2020;
  • agréger les erreurs de prédiction au niveau de la parcelle jusqu'à obtenir une mesure de rendement numérique unique appropriée;
  • répéter la procédure pour les deux autres années de validation (2018 et 2019).

En calculant la moyenne des mesures de rendement pour les années de validation 2018, 2019 et 2020, le résultat obtenu est une mesure de rendement numérique unique ou une erreur de validation pour la configuration temporairement fixée d'hyperparamètres.

Cela doit ensuite être répété pour toutes les configurations candidates d'hyperparamètres de l'espace de recherche d'hyperparamètres. La configuration optimisée à réellement déployer en production est celle qui fournit la meilleure mesure de rendement agrégée. Il s'agit de la validation de la fenêtre mobile progressive ou plus précisément notre adaptation de cette méthode au contexte de la prédiction de rendement des cultures.

Il convient de noter que le protocole susmentionné respecte la contrainte opérationnelle selon laquelle, pour le cycle de production de 2021, le modèle de prédiction formé doit avoir été formé et validé en fonction de données provenant d'années strictement précédentes; en d'autres termes, le protocole évite la fuite de renseignements temporels.

Mise à l'essai adaptée à la production par série d'erreurs de prédiction de cycles de production virtuels

Pour évaluer (de la façon la plus pertinente dans le contexte de production des EGC) le rendement de la stratégie de prédiction susmentionnée fondée sur XGBoost (linéaire) et RWFV, les scientifiques des données ont calculé la série d'erreurs de prédiction obtenue si la stratégie avait réellement été déployée pour des cycles de production passés. En d'autres termes, ces erreurs de prédiction de cycles de production passés virtuels ont été considérées comme des estimations de l'erreur de généralisation dans le contexte de la production statistique des EGC.

L'illustration suivante représente la série d'erreurs de prédiction des cycles de production virtuels.

Description - Figure 2 Série d'erreurs de prédiction des cycles de production virtuels. Les cycles de production virtuels sont exécutés pour les années de référence passées, comme décrit dans la figure 1. Comme les données de rendement réel des cultures sont déjà connues pour les cycles de production passés, il est possible de calculer les erreurs de prévision réelles si la stratégie de prévision proposée avait été effectivement déployée pour les cycles de production passés (représentés par des cases oranges). La série d'erreurs de prévision qui en résulte pour les cycles de production passés est utilisée pour évaluer la précision et la stabilité de la stratégie de prévision du rendement des cultures proposée.

Il s'agit alors de répéter, pour chaque cycle de production virtuel (représenté par une case orange), ce qui vient d'être décrit pour la case bleue. La différence est maintenant la suivante : pour la case bleue (c.-à-d. le cycle de production actuel), il N'EST PAS encore possible de calculer les erreurs de production ou de prédiction au moment de la prédiction du rendement des cultures (en juillet), puisque la saison de croissance n'est pas terminée. Cependant, il est possible de le faire pour les cycles de production virtuels passés (les cases orange).

Ces erreurs de prédiction pour des cycles de production virtuels passés peuvent être illustrées dans le graphique suivant :

Description - Figure 3 Comparaison graphique de la stratégie de prédiction XGBoost(Linear)/RWFV avec le modèle de référence. La ligne rouge représente la série d'erreurs de production simulées de la stratégie de base, tandis que la ligne orange représente la stratégie XGBoost(Linear)/RWFV. Cette dernière stratégie présente des erreurs de prédiction toujours plus faibles sur des cycles de production passés virtuels consécutifs.

La ligne rouge représente les erreurs de prédiction du modèle de référence, alors que la ligne orange, celles de la stratégie XGBoost/RWFV. Les lignes grises représentent les erreurs de prédiction pour chaque configuration candidate d'hyperparamètres de notre grille de recherche choisie (qui comprend 196 configurations).

La stratégie de prédiction XGBoost/RWFV a enregistré des erreurs de prédiction moindres que la méthode de référence, de façon constante sur des essais de production historiques consécutifs.

La stratégie proposée est actuellement en phase finale d'essai de préproduction, pour être appliquée conjointement par des spécialistes de domaine et les méthodologistes du programme agricole.

Importance de l'évaluation des protocoles

L'équipe a choisi de ne pas utiliser de méthode de validation habituelle, comme la validation test ou la validation croisée, ni une estimation générique d'erreur de généralisation, comme une erreur de prédiction sur un ensemble de données d'essai mis de côté au préalable.

Ces décisions sont fondées sur notre détermination à proposer un protocole de validation et un choix d'estimations d'erreurs de généralisation (respectivement, RWFV et séries d'erreurs de prédiction de cycles de production virtuels) qui soient bien plus pertinents et adéquats pour le contexte de production des EGC.

Les méthodologistes et praticiens en apprentissage automatique sont encouragés à évaluer attentivement si les protocoles de validation ou mesures d'évaluation génériques sont effectivement adaptés à leur cas d'utilisation et, dans le cas contraire, à rechercher d'autres options plus pertinentes et utiles pour le contexte donné. Pour de plus amples renseignements au sujet de ce projet, veuillez envoyer un courriel à statcan.dsnfps-rsdfpf.statcan@statcan.gc.ca.

Date de modification :
Legacy Content

Contrôle de version avec Git pour les professionnels de l’analyse

Par : Collin Brown, Statistique Canada

Le déroulement des opérations en analyse et science des données est plus complexe que jamais : un plus grand nombre de données doivent être analysées, le prix des ressources informatiques continue à diminuer et on assiste à un afflux de disponibilité de logiciels libres.

Pour ces raisons ainsi que d'autres, un nombre significatif de professionnels de l'analyse sans formation en informatique classique se sont tournés vers la programmation. Ces progrès ont permis aux professionnels de l'analyse d'étendre la portée de leur travail, d'accomplir de nouvelles tâches et d'utiliser ces outils pour en améliorer la valeur.

Toutefois, cette rapide adoption de la programmation par des professionnels de l'analyse a introduit de nouvelles complexités et en a exacerbé d'anciennes. Dans le déroulement des opérations de l'informatique classique (comme le développement de logiciels), de nombreux outils et techniques ont rigoureusement été développés au cours des décennies pour s'adapter à cette complexité.

À mesure qu'un plus grand nombre de professionnels de l'analyse intègrent la programmation et l'utilisation de logiciels libres à leur travail, l'adoption de certaines pratiques exemplaires de l'informatique peut également leur être particulièrement bénéfique en leur permettant de gérer les analyses et le déroulement d'opérations complexes.

Quand les professionnels de l'analyse devraient-ils utiliser des outils et techniques pour gérer la complexité? Prenons l'exemple de l'enjeu du contrôle de version d'un code source. En particulier, comment plusieurs professionnels de l'analyse peuvent-ils travailler sur un même code de base sans entrer en conflit et comment peuvent-ils rapidement revenir à des versions antérieures du code?

Utilisation de Git pour le contrôle de version

Même sans connaître les détails de Git, le scénario suivant démontrera les avantages d'un tel outil.

Imaginez qu'une petite équipe de professionnels de l'analyse utilise Git (en anglais uniquement) (puissant outil généralement utilisé en génie logiciel) et GCCode (instance interne de GitLab (en anglais uniquement) du gouvernement du Canada).

Les trois professionnels de l'analyse (Jane, Jean et Janice) créent un rapport mensuel faisant intervenir la production de statistiques descriptives et l'estimation de certains paramètres de modèle. Le code qu'ils utilisent pour mettre en œuvre cette analyse est rédigé en Python et les ensembles de données sur lesquels ils effectuent leur analyse sont enregistrés à un emplacement de fichiers partagés auquel ils ont tous accès. Ils doivent produire le rapport le jour où le nouvel ensemble de données est reçu et, ensuite, l'envoyer à leur gestion supérieure pour examen.

L'équipe utilise GCCode pour gérer de manière centrale leur code source et la documentation rédigée en gitlab flavoured markdown (article en anglais). Ils utilisent une version simplifiée d'un modèle de ramification git efficace (article en anglais) pour éviter les conflits lorsqu'ils acheminent individuellement le code vers le répertoire. L'équipe utilise une approche d'examen interne pour les propositions de révision (PR); ce qui signifie qu'une personne autre que celle ayant soumis la PR doit examiner et approuver les modifications apportées dans la PR.

Ce mois-ci est particulier; sans grand préavis, le superviseur informe l'équipe d'un changement de format dans lequel l'un des ensembles de données est reçu. Ce changement de format est important et nécessite des modifications importantes au code de base de l'équipe. En particulier, une fois les modifications apportées, le code prendra en charge le prétraitement des données au nouveau format, mais ne prendra plus en charge l'ancien format.

Les trois employés se répartissent rapidement les responsabilités pour intégrer les modifications nécessaires au code de base :

  • Jane rédigera le nouveau code nécessaire pour prendre en charge le nouveau format de données;
  • Jean rédigera les tests automatisés qui vérifieront la justesse du code de Jane;
  • Janice mettra à jour la documentation pour décrire les changements du format des données.

L'équipe a employé de bonnes pratiques de contrôle de version; la branche principale de leur répertoire central sur GCCode est à jour et applique correctement l'analyse nécessaire pour produire les rapports des mois précédents.

Jane, Jean et Janice commencent par l'extraction à partir de leur répertoire sur GCCode pour s'assurer que chacun de leur répertoire local est à jour. Une fois cette étape effectuée, ils extraient chacun une nouvelle branche de la branche principale. Du fait de la taille réduite de l'équipe, ils choisissent d'omettre la majeure partie des données supplémentaires présentées dans l'article un modèle de ramification efficace (article en anglais) et extraient uniquement leurs propres branches directement de la branche principale.

Description - Figure 1 Exemple de trois employés interagissant avec un répertoire Git. Il y a une boîte en haut du diagramme représentant un répertoire distant. En dessous, il y a trois boîtes côte à côte représentant les répertoires locaux de chacun des trois employés. Pour chaque boîte, il y a une figure montrant la branche de l'employé provenant de la branche principale, qui est représentée par une série de cercles, où chaque cercle est une sauvergarde sur la branche de l'employé. Les flèches pointant vers et depuis les répertoires locaux et distants montrent que les employés envoient et retirent des informations sur le répertoire distant pour que leurs modifications soient synchronisées avec celui-ci. Enfin, le répertoire distant comporte une figure montrant les trois branches d'employés hors de la branche principale réunies dans un seul diagramme, ce qui indique que le travail des trois employés se déroule en parallèle et que le travail de chaque employé n'entre pas en conflit avec celui des autres.

Les trois employés travaillent à leur poste de travail local, validant leurs modifications au fur et à mesure tout en suivant de bonnes pratiques de validation (article en anglais). À la fin de la journée de travail, ils archivent leurs branches sur le répertoire distant. Le répertoire distant comprend alors trois nouvelles branches présentant chacune plusieurs sauvegardes différentes de la branche principale. Chacun désigne l'un des deux autres membres de l'équipe comme pair devant procéder à l'examen et, le lendemain, l'équipe approuve les changements et fusionne la branche de chaque membre à la principale.

Description - Figure 2 Exemple de trois branches qui fusionnent à nouveau dans la branche principale par le biais d'une proposition de révision. Il y a un cercle représentant la sauvegarde la plus récente de la branche principale au moment où chacune des branches des trois employés est créée à partir de la branche principale. Il y a maintenant trois branches sur lesquelles chaque employé a travaillé en parallèle pour mettre en œuvre son flux de travail, sans entrer en conflit avec le travail des autres. Chaque branche a plusieurs cercles consécutifs représentant les sauvegardes effectuées. À droite de la figure, les trois branches parallèles convergent vers un deuxième cercle représentant le point de départ de la nouvelle branche principale après la fusion des trois branches des employés.

Le jour où le rapport doit être généré, ils exécutent le nouveau code, génèrent le rapport avec succès et l'envoient à leur haute direction en ayant utilisé les nouvelles données.

Plus tard ce jour-là, ils reçoivent une demande urgente de reproduire les rapports des trois mois précédents à des fins de vérification. Du fait du changement de code pour prendre en charge le nouveau format de données, le code actuel n'est plus compatible avec les ensembles de données antérieurs.

Git à la rescousse!

Heureusement, l'équipe utilise Git pour gérer son code de base. Parce que l'équipe utilise Git, elle peut effectuer une extraction selon la sauvegarde précédant l'application des changements et retourner temporairement le dossier de travail à l'état précédant changements. Maintenant que le dossier a été modifié, l'équipe peut produire rétroactivement les trois rapports à partir des données des trois mois précédents. Enfin, elle peut ensuite procéder à une extraction selon la sauvegarde la plus récente de la branche principale, pour pouvoir utiliser le nouveau code de base maintenant adapté au changement de format.

Même si la situation décrite ci-dessus correspond à un déroulement d'opérations d'analyse, l'équipe a pu utiliser Git pour éviter une situation qui aurait, sans cela, été très gênante et chronophage.

En savoir davantage sur Git

Votre travail tirerait-il profit de l'utilisation des pratiques décrites ci-dessus? Vous ne connaissez pas Git? Voici quelques ressources pour vous lancer :

  • La première partie du tutoriel en anglais Fonctionnement de Git (en anglais uniquement) d'IBM fournit un modèle abstrait du fonctionnement de Git et présente bon nombre des termes techniques relatifs à Git et leur lien avec ce modèle.
  • L'article en anglais un modèle de ramification efficace (en anglais uniquement) fournit un guide sur la façon de réaliser des travaux de programmation en collaboration, à l'aide d'un modèle ramifié et d'un cadre de travail pouvant être ajusté à des besoins particuliers.
  • Le Manuel de Git fournit un examen très détaillé du processus de fonctionnement de Git. Il est divisé en sections, permettant ainsi de passer en revue les portions les plus pertinentes pour votre cas d'utilisation.

Quelles sont les étapes suivantes?

Appliquer le contrôle de version à un code source n'est qu'une des nombreuses pratiques inspirées de l'informatique pouvant être appliquées au déroulement des opérations de l'analyse et de la science des données.

Outre le versionnage du code source, de nombreux professionnels de la science des données et de l'analyse peuvent tirer profit du versionnage des données (voir l'article en anglais Contrôle de version de données pour une application de ce concept) ou du versionnage de modèles (p. ex. voir l'article en anglais Versionnage de modèle MLFlow).

Outre le versionnage, les professionnels en analyse peuvent avoir recours à de nombreuses autres pratiques informatiques comme des essais automatisés (article en anglais), respecter des normes de codage (p. ex. l'article en anglais guide de style PEP 8 de Python) et des outils de gestion d'environnements et de progiciels (p. ex. l'article en anglais pip et environnements virtuels dans Python).

Ces ressources sont d'excellentes sources pour commencer à explorer la façon dont des pratiques informatiques de gestion de la complexité peuvent être utilisées pour améliorer le déroulement des opérations d'analyse et de science des données!

Date de modification :

Réseau de la science des données pour la fonction publique fédérale (RSDFPF)

Les renseignement contenus dans ces articles sont fournis « tel quel » et Statistique Canada n'offre aucune garantie explicite ou implicite, ce qui comprend, sans s'y limiter, les garanties de qualité marchande et d'adaptation à un usage particulier. En aucun cas Statistique Canada ne sera tenu responsable des dommages directs, particuliers, indirects, consécutifs ou autres, quelle qu'en soit la cause.

Articles récents

Conception d’un système d’intelligence artificielle générative : leçons apprises et recommandations découlant de l’agent conversationnel d’AgriGuichet

Sujets abordés dans cet article : Autres

Le présent article porte sur le développement et la mise en œuvre de l’agent conversationnel AgriGuichet, un outil de recherche d’intelligence artificielle (IA) générative conçu pour fournir des renseignements agricoles fédéraux, provinciaux et territoriaux complets à la population canadienne. Issu de l’équipe gagnante du premier Défi des données de la fonction publique canadienne, l’agent conversationnel AgriGuichet est accessible via le site Web AgriGuichet.ca, offrant aux utilisateurs une interface conversationnelle pour accéder à des données agricoles utiles. La création de l’agent conversationnel AgriGuichet résulte d’un effort de collaboration entre l’industrie, le milieu universitaire et les ministères, visant à améliorer la prestation de services. Cet article traite des leçons techniques et politiques apprises au cours du processus de mise en œuvre, en mettant en évidence les principales conclusions telles que l’utilisation de la génération augmentée par récupération d’information (GARI) pour améliorer la précision de l’IA, l’importance des garde-fous éthiques pour des interactions avec l’IA sûres, et le rôle crucial d’une solide gouvernance des données et de la conformité aux politiques dans la création de systèmes d’IA responsables.

Continuer la lecture: Conception d’un système d’intelligence artificielle générative : leçons apprises et recommandations découlant de l’agent conversationnel d’AgriGuichet


Automatisation des pipelines de déploiement dans Azure Data Factory

Sujets abordés dans cet article : Traitement et ingenerie des données

L’Agence de la consommation en matière financière du Canada (ACFC) utilise abondamment les référentiels et les pipelines Azure pour gérer l’intégration et le déploiement des ressources de données dans différents environnements. Cette équipe de données en pleine croissance étudie continuellement des approches novatrices pour traiter les processus d’ingénierie des données. Elle s’est récemment intéressée au défi que représente l’automatisation des pipelines de déploiement pour Azure Data Factory (ADF). Cet article retrace le parcours d’automatisation de ces pipelines et souligne les avantages des pratiques d’intégration continue et de déploiement continu (IC-DC).

Continuer la lecture: Automatisation des pipelines de déploiement dans Azure Data Factory


Stimuler les dons : analyse et modélisation ML pour améliorer les opérations de collecte alimentaire

Sujets abordés dans cet article : Traitement et ingénierie des données

Le projet Edmonton Food Drive (EFD) est une initiative de collaboration entre le Collège NorQuest, l’Église LDS et d’autres partenaires visant à optimiser la logistique de l’un des plus grands efforts communautaires de dons alimentaires en Alberta. Distribuant plus de 400 000 repas par mois à plus de 40 000 personnes, le projet relève des défis majeurs liés à la coordination des lieux de dépôt, à la gestion des processus de collecte et à la planification d’itinéraires efficaces. Pour améliorer l’efficacité opérationnelle et réduire la complexité logistique, une solution fondée sur l’apprentissage automatique a été mise au point dans le cadre du projet, en ciblant l’automatisation et l’amélioration de la gestion des dons alimentaires. Cette approche rationalise l’allocation des ressources et la planification du transport, renforçant ainsi la capacité de la communauté à lutter contre l’insécurité alimentaire grâce à une collaboration fondée sur les données.

Continuer la lecture: Stimuler les dons : analyse et modélisation ML pour améliorer les opérations de collecte alimentaire


Autres articles récents

Legacy Content

Participants de l'Enquête canadienne sur la santé et les anticorps contre la COVID-19

Vos échantillons au travail

Les biobanques contribuent aux avancements en matière de santé des générations actuelles et futures. Les résumés des études ayant reçu l'approbation pour utiliser les échantillons entreposés sont publiés dans la section Projets sur la page Web de la biobanque de l'ECMS, afin que les répondants soient informés de la façon dont leurs échantillons seront utilisés. Occasionnellement, un petit nombre d'échantillons sera utilisé aux fins de contrôle de la qualité.

Confidentialité et protection des renseignements personnels

Des chercheurs appartenant à des établissements reconnus peuvent soumettre des demandes d'accès aux échantillons de la biobanque pour des projets de recherche scientifique. Lorsqu'une demande de projet de recherche est reçue à Statistique Canada :

Pour retirer ses échantillons de la biobanque

Si vous souhaitez retirer vos échantillons pour un projet d'étude en particulier ou pour toute étude future, vous devez rédiger une demande et l'envoyer à Statistique Canada par courriel à statcan.ccahs-ecsac.statcan@statcan.gc.ca. S'il vous plait, y inclure votre nom et prénom, la date approximative de votre participation à l'enquête, votre adresse au moment de votre participation ainsi que votre date de naissance. Ces informations seront utilisées seulement pour s'assurer que les bons échantillons biologiques soient retirés et détruits.

Pour nous joindre

Si vous avez des idées ou suggestions concernant le projet ou encore des questions concernant l'utilisation d'échantillons biologiques dans la recherche sur la santé, n'hésitez pas à nous contacter :

Date de modification :
Legacy Content

Enquête canadienne sur la santé et les anticorps contre la COVID-19

Aperçu

L'Enquête canadienne sur la santé et les anticorps contre la COVID-19 (ECSAC) est une enquête conçue pour aider à évaluer l'étendue de l'état de santé associé à la pandémie de COVID-19, comme les infections actives au COVID-19 et la prévalence des anticorps au COVID-19 parmi un échantillon représentatif de Canadiens. L'enquête fournit aussi une plateforme pour explorer les enjeux de santé publique émergents, notamment l'impact de la COVID-19 sur la santé et le bien-être social.

En savoir plus à propos de l'Enquête canadienne sur la santé et les anticorps contre la COVID-19

Échantillons

L'ECSAC entrepose, suite à leur consentement, les échantillons de gouttes de sang séché et de la salive des participants âgés de 18 ans et plus. Des échantillons supplémentaires provenant de l'Enquête canadienne sur les mesures de la santé (ECMS) sont disponibles sur la page Web de la biobanque de l'ECMS.

Recherche

L'ECSAC est mise en valeur par la représentativité nationale, provinciale et territoriale de sa cohorte, ainsi que par la possibilité d'agréger les résultats obtenus auprès des échantillons de sang séché avec des données du contenu de l'ECSAC comprenant, parmi d'autres, des questions portants sur leurs symptômes et l'état de la COVID-19 chez les participants, leur risque de la contracter, leurs facteurs de risque, leurs changements de comportement en matière de santé liés à la COVID-19 ou leur évaluation de santé.

Pour plus d'information à propos de la recherche, veuillez consultez la page Web pour les chercheurs et l'Enquête canadienne sur les mesures de la santé (ECMS)

Participants

En consentant à l'entreposage de leurs gouttes de sang séché et de la salive pour des études futures sur la santé, les participants contribuent à l'avancement des connaissances et des soins de santé. Nous assurons l'excellence scientifique, tout en protégeant la confidentialité de nos répondants.

Plus d'information pour les participants

Pour obtenir plus de renseignements au sujet de votre résultat de test d'anticorps, veuillez consultez le site Web suivant.

Résultats – Foire aux questions

Si vous vous sentez stressé en raison de  l'ECSAC ou de la pandémie de COVID-19 en général, veuillez consulter le lien suivant pour obtenir une liste de conseils et de ressources pour vous aider à prendre soin de votre santé mentale et physique en ces temps stressants.

Santé mentale et physique pendant la pandémie de COVID-19

Projets

Projets actuels et récents de la biobanque.

En savoir plus sur nos projets

Pour nous joindre

Pour toute question sur l'ECSAC : statcan.ccahs-ecsac.statcan@statcan.gc.ca

Pour toute autre question sur la biobanque : statcan.chms-biobank-ecms-biobanque.statcan@canada.ca

Date de modification :

Centre de la science des données

Centre de la science des données

En cette ère du numérique en croissance rapide, les organismes statistiques doivent trouver des moyens innovants pour exploiter la puissance des données. Statistique Canada adopte les possibilités que la science des données lui offre pour mieux répondre aux besoins d'information des Canadiens.

Science des données à Statistique Canada

Science des données à Statistique Canada

Statistique Canada est l'un des leaders dans l'adoption par le gouvernement du Canada de la science des données et de l'intelligence artificielle. Découvrez les avantages de la science des données et comment ils sont utilisés au sein de l’organisme statistique national du Canada.

Réseau de la science des données pour la fonction publique fédérale

Réseau de la science des données pour la fonction publique fédérale

Rejoignez une communauté de passionnés de la science des données pour tout savoir sur la science des données dans la fonction publique, collaborer sur des projets, partager des informations sur les derniers outils, et bien plus encore.

Mission : renforcer les capacités en science des données

Mission : renforcer les capacités en science des données

Découvrez la mission de Statistique Canada qui consiste à développer la capacité en matière de science des données au sein du gouvernement du Canada et au-delà.

Expertise en science des données

Expertise en science des données

Découvrez les différents domaines d'expertise des scientifiques des données de Statistique Canada qui sont des chefs de file de la recherche et du développement de pointe.

Projets en science des données

Projets en science des données

Découvrez certains des projets innovants de l'organisme qui sont alimentés par la science des données en utilisant le traitement du langage naturel, les images satellites, les réseaux neuronaux et d'autres techniques de pointe.

Ressources en science des données

Ressources en science des données

Apprenez-en davantage sur la science des données avec ces ressources utiles.

Communiquez avec nous

Communiquez avec le Centre de recherche et d'excellence en intelligence artificielle (CREIA) pour obtenir de plus amples renseignements sur la science des données à Statistique Canada.

Science des données à Statistique Canada

Au moment où le monde qui nous entoure continue d'évoluer et de changer rapidement dans l'ère numérique, l'importance des données et de leur utilisation est cruciale.

La science des données est un domaine en pleine évolution qui permet d'exploiter le pouvoir des données; elle donne aux gouvernements les moyens d'accroître leur efficacité et leur efficience au service des citoyens. Le rôle des organismes statistiques nationaux ne cessant d'évoluer et de s'étendre, ceux-ci doivent s'adapter et adopter les nouvelles technologies tout en développant leur sens de l'innovation pour subvenir aux besoins d'information de la société.

Statistique Canada est l'un des chefs de file du gouvernement du Canada dans la mise en place de la science des données et de l'intelligence artificielle. En adoptant une approche collaborative de la science des données, l'organisme repousse les limites de la modernisation et exploite la puissance des nouvelles approches et des nouvelles technologies pour mieux servir les Canadiens.

Qu'est-ce que l'intelligence artificielle?

L'intelligence artificielle est un domaine de l'informatique consacré à la résolution de problèmes cognitifs communément associés à l'intelligence humaine, comme l'apprentissage, la résolution de problèmes, la perception visuelle et la reconnaissance de la parole et des formes.

Science des données à l'appui de la réponse à la COVID-19

La science des données permet aux organismes statistiques de réagir rapidement aux changements économiques et sociaux. Au Canada, la puissance de la science des données est utilisée par Statistique Canada à l'appui de la réponse à la COVID-19.

L'organisme a collaboré avec Santé Canada pour représenter l'information sur l'offre et la demande des équipements de protection individuelle (EPI). Avant de pouvoir visualiser les données, il a été nécessaire de les extraire et de les intégrer. Des données provenant de nombreuses sources étaient obtenues chaque jour (différents gouvernements provinciaux ou territoriaux, d'autres ministères fédéraux et des entreprises du secteur privé qui avaient accepté de nous aider à trouver les EPI), dans de nombreux formats différents (p. ex. des documents Word, des fichiers Excel ou des documents en format PDF), et nécessitaient une quantité importante de travail manuel pour créer des rapports normalisés.

Pour améliorer ce processus, un algorithme d'analyse des données a été créé par les scientifiques des données de Statistique Canada pour diviser celles-ci en différents types de données. L'apprentissage automatique a été utilisé pour repérer les nombres et les dates dans le texte. Les données ainsi structurées ont ensuite été présentées dans un tableau de bord Power BI qui a été partagé avec d'autres ministères afin de répondre à leurs besoins en matière d'information et de mieux comprendre l'offre et la demande d'EPI au Canada.

Pour obtenir plus de renseignements au sujet de la réponse de Statistique Canada à la COVID-19, consultez ce portail : La COVID-19 sous l'angle des données.

Engagement en faveur du respect de la vie privée et de la sécurité

Alors que Statistique Canada continue à mettre en œuvre de nouvelles technologies et des innovations, l'engagement de l'organisme à protéger la vie privée et la sécurité reste la priorité absolue. L'organisme a mis en place des mesures rigoureuses pour préserver la confidentialité et la vie privée à l'ère numérique moderne.

La quantité de données que nous recueillons et utilisons et la puissance des informations qu'elles génèrent augmentent rapidement. Nous savons que les données sont vulnérables tout au long de leur cycle de vie : au repos, en transit et pendant le calcul ou le traitement. Alors que les mécanismes de sécurité pour la protection des données au repos (p. ex. la cryptographie symétrique à clé secrète) et pour celles qui sont en transit (p. ex. la sécurité TLS [Transport Layer Security]) sont bien étudiés, des technologies liées à la protection de la vie privée ont émergé ces dernières années pour assurer la protection des données tout en permettant leur traitement, notamment dans les analyses statistiques.

Le terme générique « technologies liées à la protection de la vie privée » (ou techniques de calcul pour préserver la vie privée) englobe un large éventail de méthodes qui promettent de protéger les données en les recueillant, en les traitant et en diffusant leurs résultats. Ces méthodes sont le chiffrement homomorphe, le calcul sécurisé multi-parties, la confidentialité différentielle, les environnements d'exécution fiables et les preuves à divulgation nulle de connaissance. L'utilisation de ces technologies existantes et émergentes de protection de la vie privée est étudiée en permanence par les scientifiques des données de Statistique Canada afin de répondre aux besoins de protection des données de nature hautement délicate. Cela permettra également de trouver d'autres options de stockage pour permettre le traitement sécurisé à distance de données cryptées, de tirer profit des possibilités de calcul multi-parties tout en permettant de tirer des conclusions à partir de données distribuées et inaccessibles.

Pour obtenir plus de renseignements au sujet des moyens mis en œuvre par Statistique Canada pour protéger les données, consultez le Centre de confiance de Statistique Canada.

Consultez les projets en science des données de Statistique Canada pour voir la science des données en action!

À propos du Réseau de la science des données pour la fonction publique fédérale

Notre vision est de créer une communauté dynamique de passionnés de la science des données et d'offrir un espace de communication permettant aux membres de collaborer et d'en apprendre davantage sur la science des données.

Réseau de la science des données pour la fonction publique fédérale (propulsé par l'intendance de StatCan)

Le Réseau de la science des données pour la fonction publique fédérale est une nouvelle communauté de la science des données qui facilitera le renforcement des capacités en science des données et le partage des méthodes connexes à l'échelle du gouvernement du Canada, permettant à l'ensemble de la fonction publique de tirer parti de l'utilisation de l'automatisation et de nouvelles sources de données.

Les utilisateurs du Réseau partagent des renseignements sur la formation, les pratiques exemplaires, les projets d'avant-garde et bien plus.

Statistique Canada, en sa qualité d'organisme national de statistique et source de renseignements digne de confiance, est heureux de jouer un rôle d'intendance. Depuis plus de 100 ans, l'organisme évolue sans cesse pour répondre aux besoins en information des Canadiens et il continuera de mettre son expertise à profit dans l'exploration des plus récents développements en science des données et en algorithmes.

Pourquoi devriez-vous vous joindre au Réseau?

L'adhésion au Réseau présente de nombreux avantages, notamment la possibilité de :

  • collaborer avec des scientifiques des données de partout au Canada pour découvrir les plus récents conseils et astuces;
  • participer à des discussions dynamiques à propos des percées et des défis en science des données;
  • vous renseigner à propos des projets collaboratifs en science des données et y participer;
  • partager des renseignements à propos des formations, des pratiques exemplaires et bien plus!

Quels sont les avantages du Réseau pour les Canadiens?

Le Réseau ne profite pas seulement aux scientifiques des données — il profite à tous les Canadiens.

Un fondement solide en science des données au gouvernement du Canada signifie que les services et les ressources sont optimisés, grâce à l'utilisation d'outils et de méthodes à la fine pointe de la technologie. Ainsi, les ministères et organismes sont en mesure de mieux répondre aux besoins en renseignements des Canadiens, les responsables des politiques peuvent prendre des décisions éclairées fondées sur des données fiables et de grande qualité, et les données sont mieux utilisées, en tant qu'actif stratégique, dans l'intérêt du public.

La mission générale du Réseau est de renforcer les capacités en science des données dans l'ensemble du gouvernement du Canada et au-delà.

Quels sont les avantages du Réseau pour les autres ministères et organismes?

Statistique Canada tire parti de la science des données en combinant le meilleur des statistiques traditionnelles, de l'intelligence artificielle et de l'apprentissage automatique dans le but de :

  • fournir aux Canadiens des produits d'une plus grande actualité, plus rapidement;
  • réduire le fardeau de réponse des ménages et des entreprises;
  • produire des statistiques plus exactes et détaillées;
  • améliorer la protection des renseignements personnels et de la confidentialité;
  • fournir des services d'intégration des données;
  • contribuer à une approche à l'égard du travail à la fois agile et axée sur l'utilisateur;
  • mieux répondre à l'évolution des besoins en données des utilisateurs, d'une manière entrepreneuriale.

Le Réseau renforcera les capacités en science des données dans les ministères et organismes du gouvernement, en offrant ces avantages à plus grande échelle.

En plus de mettre des ressources en commun, le Réseau donne aux ministères et organismes participants un moyen de partager les connaissances et de renforcer les capacités en science des données. Du partage des données aux pratiques exemplaires, une approche communautaire permet d'accroître l'efficacité des programmes, et de réduire le temps passé à surmonter des obstacles.

Le Réseau offre aussi des possibilités de partage des coûts, mutuellement avantageux, pour aider les ministères et organismes à répondre aux besoins des Canadiens comme le précisent leurs stratégies de données respectives.

Qui peut adhérer?

Le Réseau de la science des données pour la fonction publique fédérale est ouvert à quiconque s'intéresse à la science des données, y compris les employés du gouvernement du Canada, le milieu universitaire et les membres d'autres organisations. Tous les niveaux d'expertise sont les bienvenus.

Le Réseau ne s'adresse pas uniquement aux scientifiques des données! Si vous êtes gestionnaire de scientifiques des données, c'est pour vous l'occasion idéale d'obtenir de précieux renseignements concernant l'embauche et le maintien en poste de scientifiques des données, et la manière de les aider dans l'exercice de leurs fonctions.

Rôle de StatCan au sein du Réseau

Statistique Canada dirige la création du Réseau de la science des données pour la fonction publique fédérale. En tant que chef de file des méthodes d'analyse des données, Statistique Canada possède les connaissances, l'expertise et la vision pour donner vie au Réseau, et est heureux d'assurer l'intendance du Réseau. En tant que source de renseignements de confiance pour le pays et les Canadiens, l'organisme continuera de mettre son expertise à profit dans de nouveaux domaines comme l'intelligence artificielle et l'apprentissage automatique, dans l'intérêt des Canadiens.

L'organisme intègre ce qu'il y a de plus nouveau en méthodes, processus, technologies et normes de la science des données à son expertise analytique de longue date pour fournir aux Canadiens et aux responsables des politiques de meilleures perspectives sociales et économiques.

Améliorer l'utilisation des statistiques dans l'ensemble du gouvernement du Canada est au cœur du mandat de Statistique Canada. Grâce à une utilisation optimale des données, combinée à la responsabilisation algorithmique, à l'utilisation éthique et responsable des méthodes (comme l'inférence valide, les biais, l'équité, la reproductibilité) et à la promotion de normes et de pratiques rigoureuses, une meilleure prise de décisions peut être assurée.

Statistique Canada se réjouit de collaborer avec ses partenaires tout au long du développement du Réseau.

Créer une communauté de la science des données ensemble

Statistique Canada invite et encourage la participation de tous les ministères et organismes du gouvernement du Canada et autres partenaires intéressés au Réseau de la science des données pour la fonction publique fédérale.

Les participants peuvent tous profiter des possibilités de collaboration, du partage des données et des ressources et de discussions à propos de tous les aspects de la science des données.

Ressources

Découvrez-en plus sur la science des données grâce à ces ressources utiles.

Nous contacter

Pour obtenir plus de renseignements, communiquez avec nous à l'adresse statcan.dsnfps-rsdfpf.statcan@statcan.gc.ca.