Un étudiant coop explore la puissance des mégadonnées

par Kathrin Knorr, Université Simon Fraser

Note de la rédaction : Ce qui suit est une version révisée d’un article paru dans la série The Co-op Close-up (en anglais seulement) de l’université Simon-Fraser (SFU). L'article a été modifié et traduit par le Réseau de la science des données pour la fonction publique fédérale, et reproduit ici avec l'autorisation de SFU.

L’article présente Mihir Gajjar, un étudiant coop travaillant à la Division de la science des données de Statistique Canada. Il a obtenu un baccalauréat en technologies de l’information et de communication à l’Université d’Ahmedabad, en Inde. Il a récemment complété le programme de maîtrise professionnelle en informatique à SFU. L’article mentionne également Meredith Thomas, son ancienne superviseure à Statistique Canada.

SFU : Peux-tu nous parler de Statistique Canada? Comment c'est d'y travailler?

Mihir Gajjar : Je travaille pour l'extraordinaire Division de la science des données de Statistique Canada. Des scientifiques des données y collaborent avec des analystes spécialisés, des méthodologistes et des informaticiens, dans le but d'élaborer des stratégies en matière de traitement des mégadonnées, d'apprentissage automatique et d'intelligence artificielle.

Je trouve que la culture professionnelle à Statistique Canada présente plusieurs points forts, comme les réunions quotidiennes de type « scrum » (mêlée) avec le superviseur et les membres de l'équipe, au cours desquelles on établit les tâches prioritaires de la journée et on discute d'autres questions importantes. J'aime également la méthode de développement agile, adoptée sur la plupart des projets de façon à ce que chaque projet ait un cycle de vie de quatre mois avant d'être prêt pour le déploiement. Nous avons également des séminaires techniques hebdomadaires sur l'apprentissage automatique où nous étudions les progrès de ce domaine et où nous analysons des articles de recherche pertinents.

SFU : Peux-tu nous en dire un peu plus sur le ou les projets auxquels tu travailles en tant qu'étudiant coop?

Mihir Gajjar, étudiant à l'Université Simon Fraser (programme de maîtrise en informatique) et étudiant coop à la Division de la science des données.

Photo: D. Taiwo.

Mihir Gajjar : À Statistique Canada, les analystes passent beaucoup de temps à rechercher des renseignements sur les entreprises. La quantité de nouvelles augmentant de façon exponentielle, il devient difficile de suivre manuellement toutes les informations publiées. Le projet auquel je travaille vise à automatiser les tâches qui servent à détecter les événements présentant un intérêt dans les articles de presse et à en extraire les attributs.

Par exemple, les événements présentant un intérêt qui sont liés aux entreprises peuvent comprendre les fusions et acquisitions, les événements qui se produisent sur les marchés des actions et les ouvertures de succursales, les attributs de ces événements pouvant être des éléments comme leurs dates et leurs emplacements. Au bout du compte, mon travail permet aux analystes économiques de passer moins de temps à rechercher des données et de se consacrer plus longuement à leurs analyses. Ce travail multidisciplinaire est réalisé en collaboration par différentes équipes, notamment des gestionnaires de portefeuille et de comptes, des méthodologistes et d'autres scientifiques des données.

Les principales tâches techniques comprennent la recherche de similitudes entre les articles, à des fins de classement, de suppression des doublons et de synthèse des contenus. L'objectif consiste à fournir aux spécialistes un tableau de bord, afin de faciliter la détection et le suivi des événements recherchés sur une période déterminée.

Les données de nos modèles consistent en 1,5 million d'articles de presse provenant de la plate-forme Dow Jones Data News and Analytics et d'InfoMedia, un système gouvernemental partagé. On a utilisé l'analyse exploratoire des données et le prétraitement de texte de base pour former divers modèles d'apprentissage automatique.

SFU : Comment le programme « Big Data » de la SFU t'a-t-il préparé pour ton poste d'étudiant coop?

Mihir Gajjar : Le programme « Big Data » de la SFU m'a fourni des bases théoriques, ainsi qu'une expérience pratique, grâce à des conférences et à un environnement d'apprentissage en mode « projet ». Des sujets comme l'apprentissage automatique m'ont aidé à acquérir de solides bases théoriques, tandis que des travaux pratiques et des projets de groupe m'ont permis de mettre en œuvre les concepts appris et d'essayer de nouveaux outils et de nouvelles technologies.

Outre de solides connaissances techniques, le programme m'a doté de compétences essentielles, telles que le travail en équipe, la communication et le partage d'idées avec d'autres personnes, les présentations, la réflexion critique, la rédaction technique et la gestion du temps.

SFU : Quels sont les principaux enseignements que tu retiendras de cette expérience d'étudiant coop?

Mihir Gajjar : Grâce au projet auquel j'ai travaillé, j'ai beaucoup appris sur les aspects pratiques du travail de scientifique des données. Le projet a notamment consisté à extraire des données à l'aide d'une interface de programmation d'applications d'une entreprise externe, ce qui m'a amené à rencontrer son équipe de développement sur une base hebdomadaire. Cela m'a aidé à adopter un mode de réflexion analytique et à concevoir des questions, ce qui contribue à une meilleure compréhension de la qualité et de la profondeur des données. J'ai également découvert l'importance de bien cerner les besoins de l'utilisateur afin d'élaborer un produit qui réponde à ses exigences.

Grâce à mon travail à Statistique Canada, j'ai pu participer à des projets réels de science des données et j'ai appris comment élaborer et mettre en œuvre un plan technique pour atteindre les objectifs souhaités. Cette première expérience professionnelle en tant que scientifique des données m'a permis d'améliorer mes compétences et d'être plus confiant quant à mes capacités à occuper des fonctions de ce type au cours de ma carrière.

SFU : Que pensent les employeurs de nos étudiants?

Meredith Thomas, chef, Division de la science des données : Toujours disposé à découvrir de nouvelles approches technologiques et disposant de capacités à travailler aussi bien seul qu'en équipe, Mihir s'est avéré parfaitement adapté à notre environnement de travail. Dans le cadre de son travail, ici à Statistique Canada, Mihir continue, en partenariat avec un scientifique des données principal, à se perfectionner, passant, avec un égal enthousiasme et sans se disperser, de projets de traitement du langage naturel à des projets de traitement d'images. Il est maintenant un membre estimé de notre équipe.

Date de modification :