Tirer le maximum de la synthèse de données grâce au guide d’utilisation des données synthétiques pour les statistiques officielles
Dans le contexte de la révolution des données, il peut être difficile de trouver des moyens sûrs et durables d’offrir un accès plus rapide et plus facile à des données désagrégées et à jour. La synthèse de données permet aux utilisateurs d’accéder plus facilement à des données riches sur le plan analytique, tout en veillant au respect de l’intégrité et de la confidentialité. Cet article traite des lacunes que les fichiers de données synthétiques peuvent combler, décrit des méthodes d’apprentissage profond qui peuvent être utilisées pour générer des données synthétiques, et met en relief l’importance de s’appuyer sur des normes claires au moment de créer et d’utiliser des données synthétiques, normes qui sont fournies dans un guide créé par le Groupe de haut niveau sur la modernisation des statistiques officielles. Ce groupe, qui relève de la Commission économique des Nations Unies pour l’Europe, vise à appuyer l’utilisation de cadres et d’approches collaboratives pour la création de méthodes et d’outils pouvant servir moderniser les organismes nationaux de statistique.
Série sur les développements en matière d’apprentissage automatique - troisième numéro
Dans le troisième numéro de cette série sur les développements en matière d’apprentissage automatique, nous nous intéressons aux modèles probabilistes de diffusion de débruitage qui peuvent être appliqués à tout ensemble de données tabulaires pour générer des données synthétiques. Nous nous penchons également sur les tâches de préentraînement pour les modèles de langage dans les ensembles de données de vision par ordinateur. Enfin, nous appliquons des autoencodeurs masqués aux données tabulaires pour imputer les données manquantes.
Rendre la visualisation de données accessible aux personnes aveugles et malvoyantes
Comment une personne peut-elle comprendre ce que signifie « aplatir la courbe » si elle ne peut pas voir le graphique associé à cette courbe? Alors que les produits de visualisation des données deviennent de plus en plus courants, certains groupes, comme les utilisateurs aveugles et malvoyants (AMV), sont laissés pour compte. Dans le présent article, nous explorerons les lignes directrices actuelles pour les produits de visualisation des données, les éléments dont les utilisateurs AMV ont besoin pour tirer le maximum de ces produits, ainsi que l’écart entre les deux. Ensuite, nous nous pencherons sur certaines des méthodes actuellement utilisées pour améliorer l’accessibilité des produits de visualisation.
Conception d'un système d’alerte et de surveillance des mesures
Un système d’alerte bien conçu joue un rôle essentiel en offrant une excellente vue d’ensemble de l’état de santé d’une infrastructure de données, afin de garantir la disponibilité et la fiabilité de l’application. Ces systèmes nous permettent de recueillir, de stocker et de visualiser des mesures, des événements, des journaux et des traces en temps réel, ce qui nous donne de précieuses indications de ce qui se passe dans une infrastructure. Dans le présent article, nous allons étudier la conception d’un système évolutif d’alerte et de surveillance des mesures.
Célébrer les femmes et les filles dans le domaine des sciences : entrevue avec Mme Sevgui Erman (PH. D.)
Pour marquer la Journée internationale des femmes et des filles de science le 11 février, le Réseau de la science des données pour la fonction publique fédérale a rencontré Mme Sevgui Erman, directrice générale du Centre de recherche en technologies numériques du Conseil national de recherches Canada, afin de recueillir ses impressions sur les progrès de la science des données au Canada et la question des femmes et des filles dans ce domaine.
Pallier les lacunes dans les données pour l'entraînement d'un algorithme d'apprentissage automatique à l'aide d'une application fondée sur l'approche participative généralisée
Le concept d'approche participative généralisée renvoie au recours à un grand groupe distribué de personnes pour réaliser une tâche ou résoudre un problème. Cette méthode est utilisée dans de nombreux domaines, dont l'annotation de données, la création de contenus et la résolution de problèmes. Dans ce blogue, nous explorerons les différents avantages d'une application généralisée de collecte de données par approche participative et discuterons des avantages de cette méthode, ainsi que des difficultés qu'elle présente.
Prévisions en matière de consommation d'énergie dans les collectivités éloignées du Nord canadien
Dans le but de faciliter la transition des collectivités nordiques et éloignées du Canada de l’énergie traditionnelle issue des combustibles fossiles à l’énergie renouvelable et verte, nous devions prédire les besoins énergétiques de ces collectivités. Par conséquent, pour nous aider dans cette tâche, nous avons étudié la relation entre la consommation horaire historique d’énergie et les variables externes. L’utilisation de données historiques sur la consommation horaire d’énergie nous permettrait de prévoir avec précision la consommation annuelle d’énergie et de déterminer un profil horaire typique de consommation d’énergie pour ces collectivités. Nous avons ensuite mis en place un moyen de prévoir avec précision la future consommation d’énergie en fonction de la consommation horaire historique d’énergie.
Modélisation du contexte à l'aide de transformateurs : reconnaissance des aliments
La reconnaissance des aliments est une tâche complexe de vision par ordinateur qui nécessite un modèle pour dégager les différents types d'aliments ou de boissons qui apparaissent sous diverses formes. Par exemple, un aliment comme la pomme de terre peut être consommé de différentes manières : cuite au four, en purée, frite, en quartiers, à la dauphinoise, entre autres. Cette variation, de même que le nombre de catégories d'aliments ou de boissons possibles, rend cette tâche extrêmement difficile. Le présent article présente deux modèles à la fine pointe de la technologie utilisés pour définir les aliments et les boissons dans des images. Ces modèles apprennent la représentation des caractéristiques au moyen d'un mécanisme d'autoattention globale et de l'apprentissage par représentation multimodale.
Technologies d'amélioration de la protection de la vie privée : un survol de l'apprentissage fédéré
L'apprentissage fédéré est une technologie d'amélioration de la protection de la vie privée qui permet d'entraîner des modèles d'apprentissage automatique selon un paramètre distribué, sans recueillir les données des utilisateurs. Il permet l'exploration de statistiques sur des sujets pour lesquels il serait autrement impossible de recueillir des données en raison de leur nature délicate ou de leur protection juridique. Il s'agit d'un outil important qui pourrait révolutionner la façon dont les organismes nationaux de statistique explorent les statistiques contenant des données de nature délicate ou protégées, qui ne seraient pas transmises autrement.
Technologies liées à la protection de la vie privée, partie trois : Analyse statistique confidentielle et classification de texte confidentiel fondées sur le chiffrement homomorphe
Notre article précédent, Technologies liées à la protection de la vie privée partie deux : introduction au chiffrement homomorphe expliquait la façon dont le chiffrement homomorphe permet d’effectuer des traitements informatiques à partir de données chiffrées. Nous avons présenté les mathématiques sous‑jacentes et discuté de certains de ses avantages et inconvénients. Nous explorerons maintenant ses applications possibles comme le traitement informatique sécurisé à l’externe, selon lequel un détenteur de données permet à un tiers d’effectuer des traitements informatiques à partir de données de nature délicate, tout en protégeant celles‑ci. Dans le présent article, nous examinerons également deux cas d’utilisation fondée sur les données de lecteurs optiques, l’analyse statistique confidentielle et la classification de texte confidentiel fondées sur le chiffrement homomorphe pour protéger les données. Nous analyserons coûts en matière d’espace (mémoire) et de temps, en plus de fournir des stratégies pour alléger le fardeau.
Tirer des avantages pour le public à partir des données administratives : une méthode d'amélioration de l'analyse à l'aide de données couplées
Le ministère des Pêches et des Océans du Canada (MPO) cherche à dresser des profils financiers des flottes de pêche commerciale afin de produire des renseignements sur le rendement économique et la viabilité de l'industrie de la pêche. En 2019, avec la collaboration de Statistique Canada, le MPO a entrepris un projet de données couplées en mettant à l'essai un petit nombre de flottes au moyen d'une technique d'appariement déterministe. Cette technique consistait à utiliser les données sur les prises et les efforts de pêche du ministère pour les coupler avec les données sur les déclarants que détient Statistique Canada. Malgré la bonne qualité globale des profils financiers ainsi dressés, les taux d'appariement ont été relativement faibles pour certaines flottes (de 40 % à 60 %). Afin d'améliorer le taux d'appariement, le MPO s'est associé à l'École de la fonction publique du Canada et à Statistique Canada en 2021 pour mettre à l'essai de nouvelles techniques d'appariement fondées sur des technologies à source ouverte. La technique d'appariement, appelée couplage d'unités lexicales, a donné lieu à une amélioration de l'appariement à une seule colonne en produisant des taux d'appariement variant de 89 % à 94 %. Le présent article vise à informer la communauté de la science des données au sujet de l'utilisation des données couplées et de leur effets positifs sur la prise de décisions stratégiques.
Segmentation d'image en imagerie médicale
Les techniques de vision par ordinateur et d'analyse d'image sont très couramment employées dans des applications d'imagerie médicale, notamment la détection de lésions, le diagnostic, la surveillance de la santé et la prédiction de pronostic. Elles sont généralement mises en œuvre au moyen de pipelines de données dans lesquels des techniques de traitement d'image sont appliquées de façon séquentielle à un ensemble d'images. Ce processus porte le nom de segmentation d'image. Dans le contexte du traitement et de l'analyse d'image, la segmentation d'image consiste à partitionner une image en segments significatifs. Dans cet article, nous présenterons une vue d'ensemble de la méthodologie sous-tendant certaines méthodes communes de segmentation d'imagerie numérique.
MLflow Tracking : une façon efficace de suivre les essais de modélisation
Le suivi de modèles d'apprentissage automatique doit être effectué de façon transparente et permettant l'interrogation pour tous les passages, afin de fournir les meilleurs résultats à la population canadienne. On laisse souvent les équipes trouver seules une manière de suivre l'évolution des modèles; ce qui peut mener à des mises en œuvre manquant de cohérence, à une perte de temps et à des difficultés lors de la comparaison avec de multiples projets. MLflow Tracking offre une solution d'entreprise évolutive pour résoudre ce problème.
Classification de texte des offres d'emploi dans la fonction publique
Les zones de texte ouvertes sont un excellent moyen de recueillir des renseignements complexes et variés. Cependant, il peut être difficile de produire des rapports concernant les renseignements recueillis à l'aide de ces zones. Dans le présent article, nous décrivons un projet qui consistait à classer des zones de texte ouvertes tirées d'offres d'emploi dans la fonction publique, puis à utiliser les données classifiées comme données d'entrée pour un outil interactif de visualisation des données. Nous étudions également les techniques de classification de texte utilisées pour extraire des renseignements d'un vaste corpus et la performance de nos modèles, et soulignons les applications pratiques de ces données nouvellement classifiées.
Extraction de tendances temporelles à partir d'images satellitaires
La terre a toujours constitué une ressource naturelle et économique vitale. L'importance croissante des questions climatiques et environnementales est primordiale pour les décideurs politiques, les entreprises et les particuliers concernés de disposer d'un inventaire complet de la couverture terrestre et de l'utilisation des sols à l'échelle nationale, voire mondiale. Il est évident que les observations sur le terrain à l'échelle continentale ou mondiale visant à recueillir les données requises sont trop coûteuses et prennent trop de temps. Par ailleurs, les technologies de télédétection ont suffisamment évolué pour fournir des données d'imagerie régulières, fiables et de haute qualité de notre planète, dont certaines sont même en accès libre. L'utilisation efficace de telles données de télédétection à grande échelle fournira des renseignements précieux sur notre environnement et l'utilisation du sol. En particulier, les changements saisonniers de la surface de la Terre, comme ils sont enregistrés dans les séries chronologiques de données de satellites radar, contiennent des renseignements utiles pour un certain nombre d'applications d'observation des terres. Le présent article explique l'analyse en composantes principales fonctionnelles, une technique statistique intéressante et puissante qui permet d'extraire les changements saisonniers (tendances temporelles saisonnières) des données des séries chronologiques de satellites radar.
Élaboration de profils de compétences pour encadrer la science des données dans la fonction publique
Le besoin de scientifiques des données se faisant sentir dans toutes les industries, le gouvernement du Canada se devait de créer rapidement un instrument commun que les gestionnaires d'embauche, les spécialistes des ressources humaines et les scientifiques des données eux-mêmes pourraient utiliser pour déterminer les compétences nécessaires pour chaque rôle. C'est dans cette optique que le Réseau de la science des données a mis sur pied le Groupe de travail sur les compétences en science des données, une communauté interministérielle regroupant 61 membres issus de 21 différents ministères et organismes, et ayant pour mandat de déterminer les compétences dont les scientifiques des données ont besoin pour assumer différents rôles en science des données à l'étendue de la fonction publique fédérale.
De leurs travaux a découlé un ensemble standardisé de quatre profils de compétences, aidera à encadrer l'intégration de la science des données au sein du gouvernement du Canada pour les années à venir.
Considérations sur les biais dans le traitement bilingue des langues naturelles
Au moment de concevoir des solutions de traitement du langage naturel (TLN) pour des sources de données bilingues, les scientifiques de données d'Emploi et Développement social Canada (EDSC) doivent prendre des décisions pour assurer le traitement optimal des deux langues officielles. Nous sommes convaincus que certains éléments importants du traitement linguistique bilingue sont généralement négligés en raison de priorités concurrentes et de contraintes de temps. L'équipe du Bureau de la dirigeante principale des données d'EDSC a entrepris d'étudier diverses méthodes de TLN utilisées dans le cadre de problèmes commerciaux passés touchant des ensembles de données bilingues, en mettant l'accent sur une langue. Les résultats indiquent que les rendements peuvent être systématiquement inférieurs pour une langue dans certains contextes.
Cas d'utilisation sur la gestion des métadonnées
Le terme « métadonnées » est couramment utilisé dans le domaine des bases de données et des entrepôts de données. Il a pour rôle de définir les données. Avec l'évolution de l'architecture distribuée, dont l'infonuagique et les mégadonnées, la gestion des métadonnées est progressivement devenue un élément important d'une stratégie d'initiative numérique réussie. Cet article aborde certains des éléments clés de la gestion des métadonnées et présente un cas d'utilisation des métadonnées en guise de solution.
Ingénierie des données en Rust
Lorsqu'il s'agit d'analyse, Python est souvent privilégié par les scientifiques des données. Toutefois, lorsque la vitesse de traitement est un facteur important, il existe d'autres options. Dans cet article, nous expliquons comment développer une application de conversion de données en Rust, un langage performant qui offre des avantages par rapport à Python et à C++. Le programme qui en résulte peut traiter rapidement une archive pluriannuelle de données de position sur un ordinateur modeste.
Série sur les développements en matière d'apprentissage automatique : numéro deux
Dans le deuxième numéro de la série sur l'apprentissage automatique, nous examinons des images réalistes à partir de la saisie de texte par l'utilisateur en appliquant un modèle de 3,5 milliards de paramètres qui peut tromper l'œil humain. Nous nous penchons également sur l'apprentissage jumelé pour la réduction de la dimensionnalité pour les résultats de petite à moyenne taille - une technique qui utilise un codeur de réduction de la dimensionnalité linéaire qui encourage les voisins les plus proches dans l'espace d'entrée à être similaires dans l'espace d'intégration plus restreint. Enfin, DeepMind a développé un nouveau jeu de données de programmation compétitive utilisé pour entraîner un modèle de 41 milliards de paramètres capable de prendre une description textuelle en langage naturel d'un défi de codage et de générer un code fonctionnel pour résoudre ce défi. C'est de la folie !
Comparaison des outils de reconnaissance optique de caractères pour les documents à forte densité de texte et les textes de scène
La reconnaissance optique de caractères (ROC) est la technologie utilisée pour automatiser la transformation d'un texte imprimé ou écrit à partir d'une image ou d'un document numérisé en un format lisible par machine. Le présent article explore deux outils de source libre de ROC couramment utilisés et observe les différences de performance en fonction du type d'image fourni au départ. De plus, il expose l'avantage de tirer parti des forces des deux outils pour créer un outil de ROC personnalisé afin d'améliorer la performance.
Création d'une Application Web tout-en-un pour la science des données à l'aide de Python : évaluation de l'outil en source ouverte Django
Les applications Web sont largement utilisées pour accroître l'accessibilité des données, présenter des visualisations de données et créer des tableaux de bord. Toutefois, avant de présenter des données dans des tableaux de bord, il faut effectuer diverses tâches pour maintenir et mettre les données à jour. Ces tâches, généralement dissociées du système frontal et gérées individuellement, font typiquement intervenir un nettoyage de données et l'apprentissage automatique, afin de produire de l'information utile et d'enregistrer les résultats de façon exacte. Dans cet article, je vais présenter des façons de créer une application tout-en-un à l'aide d'outils en source ouverte dotés d'une interface utilisateur graphique, en vue de maintenir et de mettre des données à jour à partir d'une application prête pour la production.
Apprentissage automatique explicable, théorie des jeux et valeurs de Shapley : un examen technique
Dans un article récent, nous avons discuté des principes d'explicabilité du cadre « Utilisation responsable de l'apprentissage automatique à Statistique Canada » qui guide l'élaboration de processus d'apprentissage automatique responsables. Il s'agit d'un catalyseur déterminant en ce qui concerne ce cadre. Un autre article remarquable écrit par Santé Canada, intitulé « De l'exploration à l'élaboration de modèles d'apprentissage automatique interprétables et précis pour la prise de décision : privilégiez la simplicité et non la complexité », met l'accent sur le compromis entre des modèles d'apprentissage automatique simples et complexes. Dans cet article, nous tentons d'approfondir l'idée d'une « intelligence artificielle explicable ».
Série sur les développements en matière d'apprentissage automatique – premier numéro
Dans le premier numéro de cette série sur l'apprentissage automatique, nous nous penchons sur les éléments marquants de 2021, qui comprennent l'approche révolutionnaire de préentraînement « Contrastive Language-Image Pre-training » (CLIP) de l'entreprise OpenAI. Cette approche a pris d'assaut le monde de l'apprentissage automatique au cours de la dernière année. Nous examinons également un réseau neuronal formé exclusivement à l'aide de paramètres de normalisation par lots. Enfin, nous examinons la façon de mesurer le niveau de difficulté des instances d'entraînement dans un ensemble de données et la manière dont cette information peut être exploitée pour entraîner un réseau neuronal.
Communauté de pratique (CdP) de l'apprentissage automatique appliqué à l'analyse de texte: Bilan de l'année 2021
En 2018, une communauté de pratique a été créée pour discuter des solutions d'apprentissage automatique de haute qualité concernant les données textuelles. Ce groupe, connu sous le nom de « Communauté de pratique de l'apprentissage automatique appliqué pour l'analyse de textes », se compose de spécialistes de la science des données issus de plus de 15 ministères et organismes fédéraux. Ils se réunissent tous les mois pour discuter et collaborer sur divers sujets relatifs à l'apprentissage automatique appliqué aux données textuelles. En 2021, le groupe s'est réuni plus d'une dizaine de fois pour présenter ses solutions ou ses pratiques exemplaires. Ce mois-ci, nous faisons une brève présentation des projets dont on fait part ces spécialistes de la science des données pour le bénéfice des membres du réseau élargi de la science des données.
Conversation sur les agents conversationnels – Compte rendu de l'atelier sur les agents conversationnels
Le Réseau de la science des données a tenu son atelier sur les agents conversationnels le 6 décembre 2021. Si vous n'avez pu y assister, sachez que les organisateurs ont préparé un compte rendu de l'événement. L'atelier a permis aux présentateurs, non seulement de parler de leurs réalisations, mais surtout de faire part des difficultés rencontrées et des échecs survenus dans le cadre de la mise en service d'agents conversationnels, afin que leurs pairs puissent tirer parti de ces leçons pour orienter leurs propres activités. Après tout, ne dit‑on pas que l'échec est la voie de la réussite?
Créer des visualisations de données convaincantes
La visualisation des données est un élément clé de nombreux projets de science des données. Pour beaucoup, il s'agit de la principale voie par laquelle ils interagissent avec les projets de science des données. Cet article passe en revue trois pièges courants de la visualisation que les communicateurs de données et les consommateurs de données devraient comprendre, ainsi que quelques suggestions pratiques pour les contourner.
Intelligence documentaire : L'art de l'extraction d'information à partir des PDF
Les documents PDF (Portable Document Format) sont l'un des formats de fichier les plus populaires et les plus utilisés. Bien qu'ils soient considérés comme l'un des moyens les plus fiables de formater et de stocker des renseignements, il peut être difficile d'extraire leurs données. Les entreprises technologiques créent des outils d'automatisation qui permettent de saisir, d'extraire et de traiter des données à partir de divers formats de documents. Les technologies d'intelligence artificielle créent des solutions en libre accès qui transforment les renseignements non structurés et semi-structurés en données exploitables. Statistique Canada a développé un outil d'extraction automatique d'informations à partir de documents PDF qui permettrait aux analystes de l'organisme de travailler plus efficacement et de rendre plus accessibles des sources de données inexploitées.
Le bulletin d'information du Réseau de la science des données a un an!
Qui n'aime pas célébrer un anniversaire? Notre bulletin d'information du Réseau de la science des données pour la fonction publique fédérale (RSDFPF) – le Méli-mélo de la science des données – a eu un an! Pour célébrer notre premier anniversaire, nous vous communiquons certaines de nos réalisations de l'année écoulée.
Deuxième partie sur les technologies liées à la protection de la vie privée : Introduction au chiffrement homomorphe
Avez-vous déjà souhaité qu'il soit possible d'accéder à des données pour effectuer une analyse tout en préservant leur confidentialité? Le chiffrement homomorphe est une technique émergente de protection de la vie privée présentant d'éventuelles applications qui permettent un plus grand accès, tout en maintenant les données chiffrées et sécurisées. Cet article de suivi au premier article sur les technologies de protection de la vie privée examine plus en détail le chiffrement homomorphe, ce à quoi il peut servir et certains de ses inconvénients. Une explication des mathématiques sous-jacentes ainsi que de sa mise en route est également couverte.
Mise en œuvre des pratiques MLOps avec Azure
Les pratiques d'apprentissage automatique MLOps (Machine Learning Operations) sont une variante des pratiques de développement DevOps qui automatisent le réentraînement et le déploiement continu de modèles d'apprentissage automatique. Cet article explique comment l'équipe de la Science des données et de l'Intelligence artificielle de Services partagés Canada a intégré les offres du logiciel en tant que service Microsoft Azure et de Kubernetes en une solution MLOps facile d'accès pour créer des modèles d'apprentissage automatique sous forme d'interfaces de programmation d'applications (API) REST.
Remplissez le sondage sur le bulletin d'information
Nous vous remercions pour votre participation au Réseau de la science des données pour la fonction publique fédérale. Nous sommes actifs depuis le mois d'octobre 2020 et en accroissement constant depuis. C'est maintenant le temps de mieux connaître nos membres pour nous assurer que nous continuons à leur offrir les informations et les services qui leur seront les plus pertinents et les plus utiles. Nous vous invitons à nous faire part de vos commentaires, car ceux-ci sont importants pour nous. SVP, veuillez prendre quelques minutes pour compléter ce sondage et nous laisser savoir ce que vous pensez de votre réseau et de votre bulletin d'information!
Un nouvel indicateur des mouvements d'aéronefs hebdomadaires
L'an dernier, lorsque la pandémie de COVID-19 a frappé le Canada, le gouvernement fédéral a imposé des restrictions concernant les voyages non essentiels dans l'ensemble du pays pour aider à limiter la propagation du virus. Des restrictions frontalières sont également entrées en vigueur le 18 mars 2020 pour les voyages transfrontaliers entre le Canada et les États-Unis de même que pour les autres voyages internationaux. L'équipe de l'Aviation du Centre canadien de la statistique du tourisme et du transport (CCSTT) de Statistique Canada publie des statistiques mensuelles détaillées sur les mouvements d'aéronefs deux mois après la période de référence, mais ces statistiques n'étaient pas suffisamment actuelles pour mesurer l'évolution rapide de la situation.
Modélisation de la dynamique du SRAS-CoV-2 pour prévoir la demande d'EPI
L'équipement de protection individuelle (EPI) est devenu un aspect important de la vie de tous les Canadiens, la pandémie ayant modifié notre façon d'agir les uns avec les autres et de nous protéger. La progression rapide du nouveau coronavirus, le coronavirus 2 du syndrome respiratoire aigu sévère (SRAS-CoV-2), aussi désigné par le nom COVID-19, a exercé des pressions sans précédent sur le gouvernement du Canada pour qu'il fournisse des informations actuelles, exactes et pertinentes en vue d'éclairer la prise de décisions relatives à de nombreux enjeux de santé publique, notamment l'approvisionnement en EPI et le déploiement de l'EPI vers les provinces et territoires.
Utilisation responsable de l'apprentissage automatique à Statistique Canada
Avec l'augmentation continue du volume et de la rapidité des données, Statistique Canada s'adapte à cette nouvelle réalité et réalise de nombreux projets qui font appel à des méthodes d'apprentissage automatique pour transmettre de l'information aux Canadiens. Malgré les nombreux avantages de cette approche, l'organisme a reconnu le besoin d'un cadre pour guider l'élaboration des processus d'apprentissage automatique et d'en faire des processus responsables. Cet article donne un aperçu du Cadre pour l'utilisation des processus d'apprentissage automatique de façon responsable mis en place par Statistique Canada.
Déploiement de votre projet d'apprentissage automatique en tant que service
Dans les projets d'apprentissage automatique, les pratiques de génie logiciel et les opérations de déploiement sont des étapes souvent ignorées du cycle de vie de la réalisation de logiciels. De nombreux projets ne durent jamais assez longtemps pour être partagés entre plusieurs équipes en raison de leur configuration complexe, de leur manque d'évolutivité ou d'une incapacité de déploiement. La capacité de partager le travail est aussi importante que le travail en lui-même. La mise au point de solutions en tant que produits partageables donne au travail un excellent atout relatif à la capacité de réutilisation, à la collaboration, au déploiement et au développement subséquent. Cet article présente cinq pratiques et outils de source ouverte intéressants qui faciliteront l'installation de tout projet d'apprentissage automatique en tant que service : contrôle des versions, documentation, interfaces API REST, mise en conteneur et modularisation.
Utilisation responsable des systèmes décisionnels automatisés du gouvernement fédéral
Les systèmes décisionnels automatisés sont des technologies utilisées pour faciliter ou remplacer la prise de décisions par les humains. La Directive sur la prise de décisions automatisée du Conseil du Trésor est l'instrument de politique du gouvernement du Canada qui permet de veiller à l'utilisation responsable et éthique des systèmes décisionnels automatisés (y compris les systèmes utilisant l'intelligence artificielle) par les institutions fédérales. Le présent article souligne l'importance de la Directive pour les scientifiques des données en décrivant les situations dans lesquelles la Directive s'applique et en donnant un aperçu de certaines de ses exigences.
Une image vaut mille mots : laissez votre tableau de bord parler en votre nom!
Les tableaux de bord sont de puissants outils qui peuvent servir à regrouper l'information, à observer les tendances et à surveiller le rendement des modèles afin de faciliter la prise de décisions. Une équipe de scientifiques des données de Statistique Canada a créé des tableaux de bord pour visualiser des millions d'articles de presse et d'événements économiques liés à la COVID-19. Le présent article porte sur deux projets qui ont adopté des approches différentes pour créer des tableaux de bord et met en évidence les facteurs qui rendent certaines solutions plus attrayantes que d'autres.
De l'exploration à l'élaboration de modèles d'apprentissage automatique interprétables et précis pour la prise de décision : privilégiez la simplicité et non la complexité
La technologie utilisée pour créer des modèles interprétables d'apprentissage automatique à partir de rien a considérablement évolué depuis les premiers modèles des années 1980. Il existe maintenant un éventail de techniques qui offrent différents niveaux d'interprétabilité et de précision pour différentes applications. Le présent article explore de quelle façon des modèles simples et précis (dits « interprétables ») peuvent être utilisés pour aider à déboguer des scénarios qui reposent sur des modèles plus complexes de type « boîte noire ». Les progrès actuels offrent aussi des avantages et permettent déjà de nombreuses options en matière de sélection de modèles de prévision simples et compréhensibles pour la prise de décision.
Modélisation thématique et modélisation thématique dynamique : Une revue technique
La modélisation thématique (topic modeling) est une forme d'apprentissage non supervisé utilisée pour découvrir les sujets qui apparaissent dans un ensemble de documents (appelé corpus). La modélisation thématique dynamique, quant à elle, permet de suivre la façon dont les sujets varient dans le temps au sein du corpus. L'allocation de Dirichlet latente (ou LDA pour Latent Dirichlet Allocation) est un exemple de modèle thématique couramment utilisé dans la communauté de l'apprentissage automatique. Cet article présente un examen technique du modèle LDA et son application lors de l'identification de sujets émergents dans la Base canadienne de données des coroners et des médecins légistes (BCDCML).
Langues officielles et traitement du langage naturel
Comme vous le savez peut-être, l'anglais est la langue la plus étudiée dans le domaine du traitement du langage naturel (TLN). Compte tenu de la prédominance de l'anglais sur Internet et dans le domaine des technologies, la plupart des méthodes et outils sont d'abord élaborés et optimisés pour cette langue. Il en résulte une asymétrie entre les deux langues officielles en ce qui concerne les ressources disponibles pour l'application des techniques de TLN. Cela peut représenter un défi important pour les spécialistes de la science des données du gouvernement du Canada, qui doivent assurer un traitement équivalent des données en français et en anglais.
Interventions non pharmaceutiques et apprentissage par renforcement
Afin de réduire la propagation de la COVID-19 et, du même coup, le nombre d'hospitalisations et de décès découlant des infections, les provinces et territoires de l'ensemble du Canada ont imposé à leur population des restrictions et des limites fondées sur des stratégies d'intervention non pharmaceutique (INP). De nombreux facteurs interviennent dans la sélection des INP à mettre en œuvre, notamment la modélisation épidémiologique. En collaboration avec des partenaires de l'Agence de la santé publique du Canada, des scientifiques des données de Statistique Canada ont eu recours à l'apprentissage par renforcement pour déterminer la combinaison optimale de comportements à mettre en œuvre dans la population pour réduire la propagation d'une infection dans le cadre de simulations visant à modéliser ou prévoir l'effet d'un ensemble de scénarios précis.
Détection des serres à l'aide de la télédétection et de l'apprentissage automatique : étape un
Un effort de modernisation est en cours à Statistique Canada pour remplacer les enquêtes sur l'agriculture par des méthodes de collecte de données plus innovatrices. Un élément principal de cette modernisation est l'utilisation de méthodes de classification par télédétection de la cartographie d'utilisation du sol et de la détection des bâtiments à partir d'imagerie satellite. Dans ce projet, les techniques d'apprentissage automatique sont à l'étude pour détecter la superficie totale des serres au Canada à partir d'imagerie satellite.
Écrire un pipeline d'imagerie satellite, deux fois : un véritable succès
Une histoire à propos de l'écriture, la ré-écriture et l'écriture encore d'un pipeline d'imagerie satellite, et comment les coûts informatiques ont été réduits pour passer d'environ 80 000 $ à 200 $. Suivez avec nous les aventures sur les calculs infonuagiques, Kubernetes, les consultants, deux différents orchestrateurs de pipeline et les leçons retenues à propos du processus de développement, la collaboration entre l'ingénierie des données et la science des données et l'exploitation en temps opportun des licences de libre diffusion.
Classification des commentaires sur le recensement de 2021
Dans le but d'améliorer l'analyse des commentaires du recensement de la population de 2021, la Division de la science des données de Statistique Canada a travaillé en collaboration avec le Secrétariat des domaines spécialisés du recensement pour créer une preuve de concept sur l'utilisation des techniques d'apprentissage automatique visant à les classer rapidement et en toute objectivité. En plus de classer les commentaires par sujet, le modèle a également cherché à classer les commentaires concernant les questions techniques et les préoccupations relatives à la protection de la vie privée.
Une brève enquête sur les technologies liées à la protection de la vie privée
Les technologies de données volumineuses, comme l'apprentissage profond, ont augmenté l'utilité des données de manière exponentielle. L'infonuagique a été un instrument qui a permis à cette situation de se produire, tout particulièrement lorsqu'on utilise des données non confidentielles. Cependant, les calculs à partir de données de nature délicate non chiffrées dans un environnement infonuagique pourraient exposer les données à des menaces en matière de confidentialité et à des attaques liées à la cybersécurité. Pour tenir compte des nouvelles exigences en ce qui a trait à l'exploitation infonuagique, nous envisageons d'adopter une catégorie de nouvelles techniques cryptographiques, dites technologies liées à la protection de la vie privée, qui peuvent aider à accroître l'utilité, en tirant davantage profit des technologies, comme le nuage ou l'apprentissage automatique, tout en continuant d'assurer la sécurité des sources d'information.
Première réunion des directeurs du Réseau de la science des données
Le 25 novembre 2020, les cadres supérieurs participant à diverses facettes de la science des données se sont réunis pour la première réunion des directeurs du Réseau de la science des données pour la fonction publique fédérale. Cette réunion représentait une première étape importante pour le Réseau, alors qu'il continue de croître et d'étendre son rayon d'action au sein de la fonction publique et au-delà.
Utilisation de l'apprentissage automatique pour prédire le rendement des cultures
Des scientifiques de données de Statistique Canada ont récemment étudié comment incorporer des techniques d'apprentissage automatique dans un environnement de production de statistiques officielles pour améliorer la méthode de prédiction du rendement des cultures et comment bien évaluer les méthodes de prédiction dans un contexte de production.
L'Accélérateur numérique de RNCan – Révolutionner la façon dont Ressources Naturelles Canada (RNCan) sert les Canadiens grâce à l'innovation numérique
Ressources Naturelles Canada (RNCan) a intégré des outils analytiques avancés dans ses programmes de science et de recherche et compte mener la transformation numérique du secteur des ressources naturelles. Découvrez comment leur Accélérateur numérique appuie l'exploration des applications novatrices et le développement de partenariats stratégiques pour accroître l'expertise de RNCan.
Contrôle de version avec Git pour les professionnels de l'analyse
L'exécution de travaux analytiques ainsi que de travaux en science des données est plus complexe que jamais et la nécessité de permettre la collaboration entre les membres d'une équipe se compare aux besoins requis par les flux de travaux typiques en informatique. Nous examinons comment tirer parti de Git pour l'appliquer aux problèmes de collaboration rencontrés par les équipes en charge de l'analyse.
Utiliser la science des données et les outils infonuagiques pour évaluer les répercussions économiques de la COVID-19
Alors que les effets de la COVID-19 sur l'économie continuent de se faire ressentir à un rythme effréné, il est plus important que jamais pour les Canadiens et les entreprises de disposer de renseignements fiables pour comprendre ces changements. Une équipe de scientifiques des données et d'analystes de Statistique Canada travaille fort pour répondre à ce besoin d'information en automatisant l'extraction des données textuelles de sources variées et l'analyse de ces données en temps quasi réel.
Charges de travail protégées dans le nuage public
Cet été, le besoin s'est accru de disposer de services flexibles auxquels on pourrait accéder en dehors des réseaux traditionnels et qu'on pourrait élargir rapidement, tout en maintenant la sécurité des renseignements confiés à la fonction publique. L'occasion pour la science des données de fournir des connaissances pertinentes afin d'aider les décideurs et la population en général n'a jamais été aussi grande. Les scientifiques des données doivent toutefois pouvoir s'assurer que les activités liées aux données et au travail se déroulent dans des environnements sécurisés.
La plateforme infonuagique d'analyse avancée liée à la COVID-19
Alors que les Canadiens étaient de plus en plus préoccupés par les répercussions de la COVID-19 sur notre société et sur notre économie en mars 2020, Statistique Canada a commencé à recueillir des renseignements cruciaux pour soutenir les citoyens et les activités essentielles du gouvernement durant cette période sans précédent.
Un étudiant coop explore la puissance des mégadonnées
En offrant un aperçu de ce à quoi ressemble la vie d'un étudiant inscrit à un programme d'alternance travail-études au sein de la Division de la science des données de Statistique Canada, cet article met en lumière l'expérience de Mihir Gajjar, un étudiant du programme de mégadonnées de l'Université Simon Fraser (SFU).
Participez au Réseau de la science des données
Plus de renseignements
Les renseignement contenus dans ces articles sont fournis « tel quel » et Statistique Canada n'offre aucune garantie explicite ou implicite, ce qui comprend, sans s'y limiter, les garanties de qualité marchande et d'adaptation à un usage particulier. En aucun cas Statistique Canada ne sera tenu responsable des dommages directs, particuliers, indirects, consécutifs ou autres, quelle qu'en soit la cause.