Science des données à Statistique Canada

Au moment où le monde qui nous entoure continue d'évoluer et de changer rapidement dans l'ère numérique, l'importance des données et de leur utilisation est cruciale.

La science des données est un domaine en pleine évolution qui permet d'exploiter le pouvoir des données; elle donne aux gouvernements les moyens d'accroître leur efficacité et leur efficience au service des citoyens. Le rôle des organismes statistiques nationaux ne cessant d'évoluer et de s'étendre, ceux-ci doivent s'adapter et adopter les nouvelles technologies tout en développant leur sens de l'innovation pour subvenir aux besoins d'information de la société.

Qu'est-ce que la science des données?

La science des données est un domaine interdisciplinaire qui utilise des méthodes et des algorithmes scientifiques pour extraire des renseignements et acquérir des connaissances au moyen de divers types de données. Il combine une spécialisation dans le domaine, des compétences en programmation et des connaissances en mathématiques et en statistiques pour résoudre des problèmes analytiquement complexes.

Statistique Canada est l'un des chefs de file du gouvernement du Canada dans la mise en place de la science des données et de l'intelligence artificielle. En adoptant une approche collaborative de la science des données, l'organisme repousse les limites de la modernisation et exploite la puissance des nouvelles approches et des nouvelles technologies pour mieux servir les Canadiens.

Qu'est-ce que l'intelligence artificielle?

L'intelligence artificielle est un domaine de l'informatique consacré à la résolution de problèmes cognitifs communément associés à l'intelligence humaine, comme l'apprentissage, la résolution de problèmes, la perception visuelle et la reconnaissance de la parole et des formes.

Science des données à l'appui de la réponse à la COVID-19

La science des données permet aux organismes statistiques de réagir rapidement aux changements économiques et sociaux. Au Canada, la puissance de la science des données est utilisée par Statistique Canada à l'appui de la réponse à la COVID-19.

L'organisme a collaboré avec Santé Canada pour représenter l'information sur l'offre et la demande des équipements de protection individuelle (EPI). Avant de pouvoir visualiser les données, il a été nécessaire de les extraire et de les intégrer. Des données provenant de nombreuses sources étaient obtenues chaque jour (différents gouvernements provinciaux ou territoriaux, d'autres ministères fédéraux et des entreprises du secteur privé qui avaient accepté de nous aider à trouver les EPI), dans de nombreux formats différents (p. ex. des documents Word, des fichiers Excel ou des documents en format PDF), et nécessitaient une quantité importante de travail manuel pour créer des rapports normalisés.

Pour améliorer ce processus, un algorithme d'analyse des données a été créé par les scientifiques des données de Statistique Canada pour diviser celles-ci en différents types de données. L'apprentissage automatique a été utilisé pour repérer les nombres et les dates dans le texte. Les données ainsi structurées ont ensuite été présentées dans un tableau de bord Power BI qui a été partagé avec d'autres ministères afin de répondre à leurs besoins en matière d'information et de mieux comprendre l'offre et la demande d'EPI au Canada.

Pour obtenir plus de renseignements au sujet de la réponse de Statistique Canada à la COVID-19, consultez ce portail : La COVID-19 sous l'angle des données.

Engagement en faveur du respect de la vie privée et de la sécurité

Alors que Statistique Canada continue à mettre en œuvre de nouvelles technologies et des innovations, l'engagement de l'organisme à protéger la vie privée et la sécurité reste la priorité absolue. L'organisme a mis en place des mesures rigoureuses pour préserver la confidentialité et la vie privée à l'ère numérique moderne.

La quantité de données que nous recueillons et utilisons et la puissance des informations qu'elles génèrent augmentent rapidement. Nous savons que les données sont vulnérables tout au long de leur cycle de vie : au repos, en transit et pendant le calcul ou le traitement. Alors que les mécanismes de sécurité pour la protection des données au repos (p. ex. la cryptographie symétrique à clé secrète) et pour celles qui sont en transit (p. ex. la sécurité TLS [Transport Layer Security]) sont bien étudiés, des technologies liées à la protection de la vie privée ont émergé ces dernières années pour assurer la protection des données tout en permettant leur traitement, notamment dans les analyses statistiques.

Le terme générique « technologies liées à la protection de la vie privée » (ou techniques de calcul pour préserver la vie privée) englobe un large éventail de méthodes qui promettent de protéger les données en les recueillant, en les traitant et en diffusant leurs résultats. Ces méthodes sont le chiffrement homomorphe, le calcul sécurisé multi-parties, la confidentialité différentielle, les environnements d'exécution fiables et les preuves à divulgation nulle de connaissance. L'utilisation de ces technologies existantes et émergentes de protection de la vie privée est étudiée en permanence par les scientifiques des données de Statistique Canada afin de répondre aux besoins de protection des données de nature hautement délicate. Cela permettra également de trouver d'autres options de stockage pour permettre le traitement sécurisé à distance de données cryptées, de tirer profit des possibilités de calcul multi-parties tout en permettant de tirer des conclusions à partir de données distribuées et inaccessibles.

Pour obtenir plus de renseignements au sujet des moyens mis en œuvre par Statistique Canada pour protéger les données, consultez le Centre de confiance de Statistique Canada.

    Qu'est-ce que l'apprentissage automatique?

    « L'apprentissage automatique est la science qui consiste à faire en sorte que les ordinateurs apprennent automatiquement à partir de données constituant leur expérience et de généraliser les connaissances acquises à de nouveaux paramètres, au lieu de s'appuyer sur des règles explicitement programmées. »

    L'équipe d'apprentissage automatique de la Commission économique des Nations Unies pour l'Europe (rapport de 2018),
    The use of machine learning in official statistics (en anglais seulement).

    En substance, l'apprentissage automatique permet d'automatiser le développement de modèles analytiques au moyen d'algorithmes d'optimisation et des paramètres qui peuvent être modifiés et affinés.

    Consultez les projets en science des données de Statistique Canada pour voir la science des données en action!

    Date de modification :