Terminologie pour la science des données

Interface de programmation d'applications (API)
Collection de routines de logiciels, de protocoles et d'outils qui fournit au programmeur toutes les composantes de base pour l'élaboration d'un programme d'applications pour une plate-forme spécifique (environnement). Une API fournit également une interface qui permet à un programme de communiquer avec d'autres programmes qui fonctionnent dans le même environnement.
Corpus
En linguistique, le corpus est considéré comme un vaste ensemble structuré de textes. Dans le contexte de la modélisation thématique (topic modeling), un corpus est un ensemble de documents et chaque document est considéré comme contenant un mélange des thèmes qui se trouvent dans le corpus.
Intelligence artificielle (IA)

L'intelligence artificielle est un domaine de l'informatique consacré à la résolution de problèmes cognitifs communément associés à l'intelligence humaine, comme l'apprentissage, la résolution de problèmes, la perception visuelle et la reconnaissance de la parole et des formes.

Système d’intelligence artificielle

Un système technologique qui utilise un modèle pour faire des déductions afin de générer des résultats, y compris des prédictions, des recommandations ou des décisions.

Science des données
La science des données est un domaine interdisciplinaire qui utilise des méthodes et des algorithmes scientifiques pour extraire des renseignements et acquérir des connaissances au moyen de divers types de données. Il combine une spécialisation dans le domaine, des compétences en programmation et des connaissances en mathématiques et en statistiques pour résoudre des problèmes analytiquement complexes.
Apprentissage profond
Sous-ensemble de l'apprentissage automatique qui imite le
fonctionnement du cerveau humain
en matière de traitement de données et qui améliore le rendement. En règle générale, il s'agit d'un algorithme à niveaux multiples qui identifie graduellement les choses à des niveaux plus élevés d'abstraction. Par exemple, le premier niveau pourrait identifier certaines lignes, puis le niveau suivant pourrait identifier les combinaisons de lignes en tant que formes et, enfin, le niveau suivant pourrait identifier les combinaisons de formes en tant qu'objets précis. L'apprentissage profond est populaire pour la classification des images.
Apprentissage automatique (AA)

« L'apprentissage automatique est la science qui consiste à faire en sorte que les ordinateurs apprennent automatiquement à partir de données constituant leur expérience et de généraliser les connaissances acquises à de nouveaux paramètres, au lieu de s'appuyer sur des règles explicitement programmées. »

L'équipe d'apprentissage automatique de la Commission économique des Nations Unies pour l'Europe (rapport de 2018),
The use of machine learning in official statistics (en anglais seulement).

En substance, l'apprentissage automatique permet d'automatiser le développement de modèles analytiques au moyen d'algorithmes d'optimisation et des paramètres qui peuvent être modifiés et affinés.

Algorithmes d'apprentissage automatique
Les algorithmes d'apprentissage automatique utilisent des méthodes de calcul pour « apprendre » directement des renseignements à partir des données sans s'appuyer sur une équation prédéterminée en tant que modèle. Les algorithmes améliorent leur rendement de façon adaptative à mesure que le nombre d'échantillons disponibles pour l'apprentissage augmente.
Modèle d'apprentissage automatique (AA)
Une représentation numérique de modèles repérés dans des données par le traitement automatisé à l’aide d’un algorithme conçu pour permettre la reconnaissance ou la reproduction de ces modèles.
Traitement du langage naturel (TLN)
Le traitement du langage naturel (TLN) est une méthode permettant de traduire entre les langages informatiques et les langues humaines. Il s'agit d'une méthode visant à permettre à un ordinateur de lire et de comprendre une ligne de texte sans lui fournir un indice ou un calcul quelconque. Autrement dit, le TLN automatise le processus de traduction entre les ordinateurs et les humains.
Événement
Un événement, dans le langage de modélisation unifié (Unified Modeling Language), est un moment marquant à un point précis dans le temps. Les événements peuvent, sans s'y limiter, provoquer des transitions d'un état à un autre lorsqu'on représente le comportement des automates (state machines).
Analyse
Division d'un bloc de données en morceaux de plus petite taille qui suit une série de règles, de sorte qu'il puisse être plus facilement interprété, géré ou transmis par un ordinateur. Les tableurs, par exemple, analysent une donnée afin de l'intégrer dans une cellule d'une certaine taille. Les algorithmes d'AA peuvent également être utilisés pour analyser des données.
Processus de Poisson

Un processus de Poisson permet de modéliser une série d'événements discrets où le temps moyen entre les événements est connu, mais où le moment exact où se passent les événements est aléatoire. Un processus de Poisson obéit aux critères suivants :

  • Les événements sont indépendants les uns des autres. L'occurrence d'un événement n'affecte pas la probabilité qu'un autre événement se produise.
  • Le taux moyen (nombre d'événements par période de temps) est constant.
  • Deux événements ne peuvent pas se produire en même temps.
Python
Langage de programmation disponible depuis 1994, qui est populaire chez les gens travaillant dans le domaine de la science des données. Python est connu pour sa facilité d'utilisation par les débutants et pour son impressionnante capacité lorsqu'il est utilisé par des utilisateurs avancés, particulièrement quand ceux-ci peuvent tirer parti de bibliothèques spécialisées comme celles qui sont conçues pour l'apprentissage automatique et la génération de graphiques.
R
Langage de programmation et environnement de source ouverte pour le calcul statistique et la génération de graphiques disponible pour Linux, Windows et Mac.
L'apprentissage par renforcement (AR)
L'apprentissage par renforcement (AR) est un sous-domaine de l'apprentissage automatique qui nécessite un contrôleur (appelé « agent ») capable de poser des actions sous la forme de décisions à l'intérieur d'un système. Chaque fois qu'une décision est prise par le contrôleur, le système évolue vers un nouvel état et le contrôleur reçoit une mesure d'utilité. En procédant par essais et erreurs, le contrôleur apprend de son expérience comment optimiser une stratégie de sélection de façon à maximiser l'utilité cumulative attendue au sein du système. L'AR est généralement utilisé pour résoudre des problèmes qui peuvent être modélisés en tant que processus décisionnels séquentiels.
Automatisation des processus robotiques (APR)
L'automatisation des processus robotiques (APR) est le terme utilisé pour les outils logiciels qui automatisent partiellement ou entièrement les activités humaines qui sont manuelles, répétitives et axées sur des règles. Ils fonctionnent en reproduisant les actions d'un être humain quand celui-ci interagit avec une ou plusieurs applications logicielles pour exécuter des tâches telles que la saisie de données et le traitement de transactions ordinaires, ou pour répondre à de simples demandes de renseignements des clients.
Apprentissage supervisé
Type d'algorithme d'apprentissage automatique dans lequel un système est instruit par des exemples. Ainsi, un algorithme d'apprentissage supervisé peut apprendre à classifier les intrants dans des classes spécifiques connues. L'exemple classique est le triage du courrier entre les pourriels et les courriels normaux.
Sémantique
La sémantique peut aborder la compréhension du texte au niveau des mots, des phrases ou encore des portions plus larges (ensemble de phrases) d'un discours. Dans l'apprentissage automatique, l'analyse sémantique d'un corpus est la tâche de construire des structures qui approximent des concepts tirés d'un grand ensemble de documents. Elle n'implique généralement pas de compréhension sémantique préalable des documents.
Apprentissage non supervisé
Catégorie d'algorithmes d'apprentissage automatique conçue pour déterminer des regroupements de données sans savoir à l'avance ce que les groupes seront.
Moissonnage Web
Le moissonnage Web est un terme désignant diverses méthodes utilisées pour recueillir des renseignements dans l'ensemble d'Internet. En général, cela se fait au moyen d'un logiciel qui simule la navigation Web d'un humain pour recueillir des éléments précis d'information provenant de différents sites Web.
Optimisation stochastique
Les méthodes d'optimisation stochastique sont des méthodes d'optimisation qui génèrent et utilisent des variables aléatoires. Pour les problèmes stochastiques, les variables aléatoires apparaissent dans la formulation même du problème d'optimisation lequel implique des fonctions objectives aléatoires ou des contraintes aléatoires. Les méthodes d'optimisation stochastique incluent également des méthodes avec des itérations aléatoires.
Variables latentes
Les variables latentes sont des variables qui ne sont pas directement observées mais qui sont plutôt déduites (à l'aide d'un modèle mathématique) à partir de d'autres variables qui elles, sont observées (mesurées directement). Les modèles mathématiques qui tentent d'expliquer des variables observées à partir de variables latentes sont appelés modèles à variables latentes.
Vecteur one-hot
Dans le cadre du traitement du langage naturel, un vecteur one-hot est une matrice de 1 x N (donc un vecteur) composée de 0 et de 1, utilisée pour distinguer chaque mot de tous les autres mots faisant partie d'un même vocabulaire. L'encodage one-hot assure d'accorder la même importance à tous les éléments du vecteur lorsqu'on utilise des algorithmes d'apprentissage automatique. Par exemple, le mot «rire» n'est pas plus important que le mot « pleurer » lorsque les deux sont représentés dans le vecteur.