OpenAI continue de nous surprendre. Après avoir sorti GPT-3 en 2020 pour générer automatiquement des contenus puis DALL-E 2 en cette année 2022 pour générer des images à partir du texte, voici qu’OpenAI annonce avoir entrainé une IA à jouer à Minecraft.
Une avancée majeure dans Minecraft
OpenAI affirme que sa dernière IA a appris à jouer à Minecraft. Elle aurait visionné quelque 70 000 heures de vidéos montrant des personnes jouant à ce jeu sur YouTube. D’autres modèles de deep learning avaient été entrainés à jouer à Minecraft mais dans des versions “sandbox”. Ces versions étaient des versions beaucoup plus simples du jeu.
Dans un billet de blog et un papier de recherche preprint, OpenAI explique que très rapidement l’algorithme a appris des compétences de base. Ces compétences sont : couper des arbres, fabriquer des planches et construire des tables. OpenAI explique être les seuls à faire travailler une intelligence artificielle dans un environnement complet, le même que celui dans lequel jouent les êtres humains.
Puis, en affinant le modèle, ils ont remarqué que l’algorithme effectuait ces tâches en étant de plus en plus fiable. Il s’est ensuite mis à faire des tâches plus complexes. Notamment en fabriquant des outils en bois, puis en pierre. L’intelligence artificielle a ensuite été en capacité de construire des abris de base.
Ensuite, grâce à du reinforcement learning, l’algorithme a été en mesure de construire une pioche en diamant. Cette tâche prend habituellement autour de 20 minutes pour les êtres humains les plus rapides.
Une grande avancée pour l’intelligence artificielle
Lors du concours de MineRL Minecraft 2019, aucun algorithme n’avait été en mesure d’accomplir une tâche plus simple. La tâche était d’extraire des diamants. La difficulté de Minecraft par rapport au jeu de Go ou aux échecs réside dans le fait que c’est un monde ouvert et que les possibilités sont immenses, rendant les résultats potentiellement très instables au vu de la diversité des possibilités.
Mine RL limitait le temps d’entrainement à 1000 heures de jeu. Il semble que la course à la quantité de données a encore de beaux jours devant elle.
L’entrainement du modèle
L’algorithme utilisé pour entrainer cette intelligence artificielle s’appelle video pre-training (VPT). L’équipe d’OpenAI a payé des personnes pour labelliser 2 000 heures de vidéo. Cet étiquetage a coûté environ 160 00 dollars. Elle a ensuite entrainé un algorithme à annoter les 68 000 heures de vidéo restantes. Cet algorithme a été assez précis pour utiliser les résultats dans le modèle utilisant VPT.
Un enfant comprends le principe de Minecraft en quelques vidéos, l’intelligence artificielle a donc encore un peu de chemin à parcourir !