Accueil Actualités Imagen : Google dévoile son modèle de génération d’images

Imagen : Google dévoile son modèle de génération d’images

Google annonce Imagen, son modèle de text-to-image. Qu’est-ce que cela signifie ?

parValentin Strach

25 mai 2022

2 minutes de lecture

Pas de commentaire

Google vient d’annoncer Imagen, son modèle de text-to-image pour générer automatiquement des images.

Table of Contents

Qu’est-ce que le text-to-image ?

Le text-to-image est une sous-catégorie de la génération automatique de contenus (NLG – Natural language generation) elle-même sous catégorie du machine learning. Le principe est simple. On va fournir à l’algorithme un texte et celui-ci sera chargé de créer une image correspondant à la description fournie dans le texte.

Qu’est-ce que ce nouveau modèle a de particulier ?

Ce modèle est annoncé seulement quelques semaines après l’annonce de DALL-E 2 par OpenIA. Selon Google ce modèle présente « Un photoréalisme sans précédent combiné à une compréhension approfondie du langage« . Il combine donc ainsi une grande compréhension de l’écrit et a une forte capacité à créer des images cohérentes à partir de cet écrit.

Comment évaluer ce modèle ?

La réponse est assez intuitive : on présente des images générées par d’autres modèles à partir d’un texte donné et on demande à des personnes quelles images elles préfèrent. Le pourcentage de préférence face à d’autres modèles sera alors un bon indicateur relatif de la qualité de ce modèle. Voici les résultats pour Imagen sur deux critères :

La fidélité qui signifie est-ce que l’image est réaliste
L’alignement (text-image) qui vérifie si l’image correspond bien à la description du texte

On a donc entre 60 et 75 % de préférence pour Imagen. Cela montre donc a priori une préférence forte pour ce modèle.

Pour ceux que cela intéresse, voici le schéma simplifié du modèle :

Un potentiel assez fort de dérive

Pour l’instant, Imagen n’est pas accessible au grand public, ni avec un code, ni avec une démo pour tester. Google affirme que « Nous avons notamment utilisé l’ensemble de données LAION-400M qui est connu pour contenir un large éventail de contenus inappropriés, notamment des images pornographiques, des insultes racistes et stéréotypes sociaux néfastes » dans le but de diminuer les risques de fuite. A titre personnel, je pense qu’il est très compliqué d’imaginer tous les détournements possibles et donc de s’en prémunir. Les graphistes ont-ils du souci à se faire ? Nous le saurons dans quelques années.