Langues officielles et traitement du langage naturel

Par : Julien-Charles Lévesque, Emploi et Développement social Canada; Marie-Pier Schinck, Emploi et Développement social Canada

Langues officielles et traitement du langage naturel

Il est connu que l'anglais est la langue dominante dans le domaine du traitement du langage naturel (TLN). Cela peut représenter un défi pour les scientifiques des données du GC, qui doivent s'assurer de la qualité des données en français et du traitement équivalent des données des deux langues officielles afin d'éviter tout biais.

La Division de la science des données du Bureau de la dirigeante principale des données (BDPD) d'Emploi et Développement social Canada (EDSC) lance un projet de recherche sur l'utilisation du TLN dans les deux langues officielles. Cette initiative, financée par le Laboratoire d'innovation d'EDSC, vise à approfondir la compréhension de l'incidence de la langue (française ou anglaise) sur le comportement des techniques et des outils utilisés dans le TLN. Ceci permettra à nos scientifiques des données de prendre des décisions plus éclairées dans leurs projets de TLN.

Pourquoi est-il important d'explorer l'utilisation des deux langues officielles dans le TLN?

EDSC a été directement confronté à ce défi dans le cadre de ses projets de TLN, et certains de ses partenaires dans d'autres ministères ont indiqué qu'ils avaient également éprouvé ce problème. Bien qu'il existe de nombreuses approches possibles pour le traitement des données dans plusieurs langues, il est difficile de dire si certaines de ces approches fonctionnent mieux que d'autres pour fournir des prévisions de qualité comparable pour les deux langues officielles. Bref, étant donné que la façon dont la langue est traitée n'est jamais le seul objectif des projets, les scientifiques des données ne peuvent investir qu'une quantité limitée de temps et de ressources pour explorer cette question. Ce manque pourrait mener à des décisions qui ne sont pas optimales. Pour la langue française, il est nécessaire de mieux comprendre les répercussions des choix faits par les scientifiques des données lorsqu'ils appliquent les techniques de TLN. Cet exercice permettra d'améliorer la qualité du traitement des données en français, et de contribuer à réduire les biais liés à la langue. Cela permettra d'accroître l'équité des solutions tout en ayant une incidence sur la prestation de services aux clients.

Nouvelles recherches sur les techniques de TLN et les langues officielles

Afin de limiter l'impact de ce problème, EDSC lance un projet de recherche qui portera sur certaines questions récurrentes entourant l'application des techniques de TLN aux deux langues officielles. Cela comprend les techniques de prétraitement, de vectorisation (word embeddings) et de modélisation du texte, ainsi que les techniques pour atténuer les répercussions des ensembles de données débalancés. EDSC souhaite acquérir des connaissances transférables qui pourraient être mises à profit par son équipe et la communauté de la science des données du GC, afin d'aider à combler l'écart entre le français et l'anglais en ce qui a trait à la qualité des applications de TLN au sein du gouvernement fédéral.

Pour l'instant, seuls les problèmes de classification de texte serviront de cas d'utilisation. Il s'agit à la fois d'une tâche très courante de TLN et d'un type de problème sur lequel l'équipe a travaillé dans le cadre de nombreux projets. Cette dernière a accès à plusieurs ensembles de données réelles étiquetées provenant de projets antérieurs, ce qui lui permettra de fonder ses conclusions sur un contexte plus appliqué.

Tirer parti des ensembles de données existants

L'équipe d'EDSC utilisera des ensembles de données provenant de quatre problèmes de classification de texte qu'elle a déjà résolus. Ces problèmes varient en fonction de la longueur des documents, de la qualité du texte, de la tâche de classification (binaire ou à classes multiples), de la proportion de contenu français/anglais ainsi que de la façon dont le contenu en français a été traité. Afin de mettre les choses en perspective, chacun de ces projets passés est examiné plus en détails ci-dessous.

  • Le projet T4 est un problème de classification binaire de notes rédigées par des agents des centres d'appels. L'objectif était de prédire si un T4 avait déjà été envoyé de nouveau à un client ou non.
  • Le projet de surveillance des médias est un problème de classification binaire des articles de presse de NewsDesk. L'objectif était de prédire si les articles étaient pertinents pour la haute direction.
  • Le projet des commentaires de relevés d'emploi est un problème de classification à classes multiples. L'objectif était de prédire quel motif de cessation d'emploi correspondait aux commentaires des employeurs sur les formulaires de relevé d'emploi.
  • Le projet des ressources humaines (RH) est un projet de recherche qui a exploré la présélection des candidats dans le cadre de processus de dotation à grande échelle pour des postes de niveau d'entrée. Il s'agissait d'un problème de classification binaire dont l'objectif était de prédire l'étiquette attribuée par le personnel des RH en fonction des réponses des candidats aux questions de présélection.
Tableau 1. Aperçu des données de chaque problème et solution finale
Nom du projet Type de problème Taille de l'ensemble de données Proportion du contenu en français Longueur de la description d'entrée Méthode utilisée
T4 Binaire Petit (6000) 35 % Courte Jetons (tokens)dans les deux langues,
modèle de n-grammes et khi carré + perceptron multicouche (multilayer perceptron, MLP)
Surveillance des médias Binaire Grand (1 M) 25 % Longue Français traduit en anglais,
métavectorisation (de GloVe, fastText et Paragram), ensemble de classifieurs (LSTM, GRU, CNN)
Projet de commentaires relatifs au relevé d'emploi Classes multiples Moyen à grand (plus de 300 000) 28 % Courte Jetons dans les deux langues,
modèle de n-grammes et khi carré + perceptron multicouche (multilayer perceptron, MLP)
RH Binaire Petit (5 000) 6 % Moyenne à longue Vectorisations de mots multilingues pré-entraînées (algorithme Bidirectional Encoder Representations from Transformers [BERT]) suivis d'ajustements

Questions de recherche clés

Ce travail permettra d'explorer les questions clés qui se posent habituellement lors de l'élaboration de solutions de TLN pour la classification. La question récurrente des ensembles de données débalancés dans les données du GC (plus de cas observés en anglais qu'en français) sera également abordée. Plus précisément, ce projet tentera de répondre aux questions suivantes :

  1. Quelle est la différence entre l'utilisation d'un modèle distinct pour le français et l'anglais et l'utilisation d'un modèle unique pour les deux langues? Peut-on déduire des règles ou des lignes directrices générales lorsqu'il serait préférable d'utiliser l'une ou l'autre des approches?
  2. La stratégie de traduction des données du français vers l'anglais, puis d'entraînement d'un modèle anglais unilingue est-elle valable? Quels sont les principaux facteurs à prendre en considération lorsqu'on utilise cette approche?
  3. Les modèles entraînés sur une multitude de langues favorisent-ils une langue par rapport à une autre? La compréhension des documents en français équivaut-elle à la compréhension des documents en anglais avec ces méthodes?
  4. Quelle est l'incidence du débalancement de la représentation linguistique dans les données? Y a-t-il un ratio minimal de données du français par rapport à l'anglais qui devrait être visé? Quelles méthodes devrait-on utiliser pour atténuer les répercussions de ce débalancement?

Partage des résultats

La majeure partie des expériences seront achevées au cours de l'été. Une présentation et un rapport seront préparés et distribués au cours de l'automne. Ce rapport détaillé documentera la recherche et l'exploration qui auront eu lieu ainsi que les conclusions. Il s'agira d'un rapport technique qui ciblera les scientifiques des données, puisque l'objectif principal de cette initiative est de leur permettre de prendre des décisions plus éclairées lorsqu'ils traitent des données en français dans le cadre de projets de TLN. De plus, un séminaire axé sur l'apprentissage automatique sera préparé pour discuter de cette initiative de recherche. Les thèmes abordés et le nombre de séances offertes seront déterminés par les conclusions de l'étude.

Créons des liens!

L'équipe espère que cette initiative de recherche apportera de la valeur aux projets bilingues de TLN à venir grâce à un traitement plus éclairé du contenu en français, offrant ainsi un produit final de meilleure qualité. Entre-temps, si vous avez aussi été confrontés à des défis similaires lors de l'utilisation du TLN dans des ensembles de données bilingues, si vous avez des commentaires, des idées ou peut-être des leçons apprises qui pourraient être intéressantes à partager, ou si vous souhaitez simplement être tenus au courant, n'hésitez pas à communiquer avec nous! L'équipe de projet vous invite à discuter avec la communauté de la science des données du GC en rejoignant la conversation dans le Réseau des utilisateurs et praticiens de l'intelligence artificielle!

Scientifiques des données

Marie-Pier Schinck (Scientifique des données), Julien-Charles Lévesque (Scientifique des données)

Date de modification :