Google vient d’annoncer Imagen, son modèle de text-to-image pour générer automatiquement des images.

Qu’est-ce que le text-to-image ?
Le text-to-image est une sous-catégorie de la génération automatique de contenus (NLG – Natural language generation) elle-même sous catégorie du machine learning. Le principe est simple. On va fournir à l’algorithme un texte et celui-ci sera chargé de créer une image correspondant à la description fournie dans le texte.
Qu’est-ce que ce nouveau modèle a de particulier ?
Ce modèle est annoncé seulement quelques semaines après l’annonce de DALL-E 2 par OpenIA. Selon Google ce modèle présente “Un photoréalisme sans précédent combiné à une compréhension approfondie du langage“. Il combine donc ainsi une grande compréhension de l’écrit et a une forte capacité à créer des images cohérentes à partir de cet écrit.
Comment évaluer ce modèle ?
La réponse est assez intuitive : on présente des images générées par d’autres modèles à partir d’un texte donné et on demande à des personnes quelles images elles préfèrent. Le pourcentage de préférence face à d’autres modèles sera alors un bon indicateur relatif de la qualité de ce modèle. Voici les résultats pour Imagen sur deux critères :
- La fidélité qui signifie est-ce que l’image est réaliste
- L’alignement (text-image) qui vérifie si l’image correspond bien à la description du texte

On a donc entre 60 et 75 % de préférence pour Imagen. Cela montre donc a priori une préférence forte pour ce modèle.
Pour ceux que cela intéresse, voici le schéma simplifié du modèle :

Un potentiel assez fort de dérive
Pour l’instant, Imagen n’est pas accessible au grand public, ni avec un code, ni avec une démo pour tester. Google affirme que “Nous avons notamment utilisé l’ensemble de données LAION-400M qui est connu pour contenir un large éventail de contenus inappropriés, notamment des images pornographiques, des insultes racistes et stéréotypes sociaux néfastes” dans le but de diminuer les risques de fuite. A titre personnel, je pense qu’il est très compliqué d’imaginer tous les détournements possibles et donc de s’en prémunir. Les graphistes ont-ils du souci à se faire ? Nous le saurons dans quelques années.