Les anglicismes en data

Data, Overfitting, Dashboard. Que veulent dire tous ces termes ? Panel des anglicismes utilisés dans les métiers en data.
Big Data

L’article commence mal. Data est déjà un anglicisme en soit. On pourrait très bien dire les données mais non, on utilise data. Tour d’horizon des anglicismes les plus répandus en data avec leurs définitions.

Les anglicismes dans les noms de métiers

Data Scientist : Je ne sais même pas comment on pourrait dire. Scientifique des données ? Ce nom est tellement prononcé en anglais que je ne suis même pas sûr que des gens l’utilisent en français. Selon cet article de développez.com, il faudrait plutôt dire expert en mégadonnées. J’avoue ne pas être franchement convaincu par ce nom.

Data Analyst : Google Translate m’indique pour ce métier analyste de données. Cela sonne à mon sens moins pire que expert en mégadonnées. Mais pour autant, on ne peut pas dire que cela sonne bien.

Data Engineer : Ingénieur des données semble pour le coup le moins pire. Sûrement parce qu’on a déjà des ingénieurs en tout et n’importe quoi. Ingénieur en urbanisme, ingénieur en informatique, ingénieur en électronique. Donc pourquoi pas ingénieur des données ou ingénieur en données.

Data architect : L’architecte des données qui appartient aussi au métier de la data va aider à créer les bonnes architectures de données pour répondre à des problèmes. C’est à dire qu’il va aider à organiser de la bonne manière la donnée et ses flux.

Pour en savoir plus sur ces métiers, retrouvez notre article sur les métiers après des études en mathématiques !

Les anglicismes liés à la data en général

Dataset : Facile à traduire : Set = Ensemble. Data = Données. Le dataset est donc l’ensemble de données. Pour faire simple c’est le “dossier” dans lequel on met les données.

Big Data : Du coup si on suit la traduction de Data scientist, on devrait traduire Big data en mégadonnées. Le Big Data se caractérise par les 3V. Volume, vélocité et variété sont ces 3 caractéristiques : beaucoup de données, qu’on sait manipuler avec une grande vitesse et ces données sont multiples, d’une grande variété.

Dashboard : Le bon terme en français est tableau de bord. C’est un outil qui permet de visualiser les données sous des formes beaucoup plus facile à lire. Grâce à ces visualisations, on transforme la donnée brute en information.

Monitorer : Cela vient de monitor, qui veut à la fois dire écran et surveiller. Monitorer c’est suivre, surveiller. Et d’ailleurs cela se fait souvent à l’aide d’un dashboard.

Mapping : La traduction littérale de mapping est cartographie. Il s’agit plutôt ici de faire le lien entre plusieurs données. On fait un mapping pour relier entre elles des données de plusieurs sources.

Bucket : Littéralement, le seau. Un bucket est un objet permettant de contenir des données ayant certaines caractéristiques bien propres. C’est un lieu de stockage virtuel où l’on peut stocker diverses informations.

Les anglicismes en business data

KPI : Donc là on a un sigle qui en plus est un anglicisme. KPI signifie Key Performance Indicator. En français, on peut traduire cela par indicateur de performance clé. Il s’agit donc d’un chiffre qui est censé représenter du mieux possible tout un ensemble de données.

Trend : On pourrait utiliser tendance en français, mais on ne le fait pas toujours. Il s’agit donc ici de la direction générale que prend un phénomène.

Pattern : Littéralement traduit par régularité, le pattern est un schéma qui se répète et qui aide à différencier certains phénomènes. Le fait de découvrir un pattern permet d’établir des règles ou de créer une feature adaptée à ce pattern.

Les anglicismes en machine learning

Machine learning : Commençons déjà par le titre. J’avais une traduction de cette expression dans un de mes noms de cours. Le terme utilisé pour la traduction était apprentissage statistique. J’ai aussi déjà croisé apprentissage automatique. Si on veut traduire littéralement, pourrait aussi avoir apprentissage par la machine. Le machine learning est le fait d’utiliser des algorithmes pour apprendre des tâches à des machines sans instruction explicite.

Overfitting : Wikipédia propose 3 traductions potentielles : Surapprentissage, sur-ajustement et surinterprétation. C’est le fait qu’un modèle apprend trop précisément sur les données qu’on lui donne et n’est donc pas capable de bien généraliser à d’autres données comparables. Cela arrive généralement lorsqu’on donne trop de données au modèle.

Underfitting : Sous-apprentissage, sous-ajustement ? C’est quand un modèle n’a pas assez de paramètres pour bien être capable d’apprendre à faire la tâche qu’on lui demande.

Learning rate : Le taux d’apprentissage est un paramètre présent dans certains algorithmes d’apprentissage qui détermine à chaque étape de l’algorithme à quelle vitesse l’algorithme apprend. S’il apprend trop lentement, l’algorithme mettra longtemps à être optimisé. S’il apprend trop vite, alors il donnera trop d’importance à l’information reçue et l’algorithme peut potentiellement diverger.

Features : On a un mot pourtant clair en français : caractéristiques. Un modèle a des features, donc des caractéristiques. Un modèle sera d’autant plus performant que ses features seront bien choisies et représentatives de la réalité.

Outliers : On peut traduire en français par valeur aberrante. C’est une valeur qui est “distante” des autres d’un point de vue statistique. Elle contraste grandement avec les autres valeurs mesurées. En pratique, il peut s’agir soit d’une exception, soit d’une erreur de mesure ou de saisie (exemple : un âge négatif, une taille supérieure à 3 mètres..)

Les anglicismes spécifiques au Deep Learning

Deep Learning : Pour la VF, on dit apprentissage profond. C’est une sous-branche du machine learning, qui utilise les réseaux de neurone profonds, c’est à dire avec beaucoup de layers.

Deepfake : Un mix entre deep learning et fake. Donc un mélange entre apprentissage profond et faux. Si vous voulez en apprendre plus sur eux, allez voir notre article sur les deepfakes.

Layers : Cela se traduit par couches. C’est une notion qui est principalement utilisée en Deep Learning. On parle de couches de réseaux de neurones.

Batch Size : Il s’agit de la taille de l’échantillon utilisée à chaque étape de l’apprentissage. On n’utilise pas généralement toutes les datas lors d’une étape donnée. On va prendre un sous-échantillon (potentiellement aléatoire) d’une certaine taille, la batch size.

Cet article vous a plu ? Avec tout cela vous devriez en savoir plus sur la data ! Retrouvez ci-dessous nos 5 derniers articles :

Total
0
Shares

Laisser un commentaire

Articles similaires