Les chercheurs ont eu l’idée d’utiliser le modèle de langage GPT-4, qui est capable de générer du texte cohérent et pertinent à partir d’un mot-clé ou d’une phrase, pour créer un agent artificiel capable de jouer au jeu vidéo Minecraft. Voyager est le premier agent embarqué d'apprentissage tout au long de la vie alimenté par le LLM dans Minecraft, qui explore continuellement le monde, acquiert diverses compétences et fait de nouvelles découvertes sans intervention humaine.
[Tweet]<blockquote class="twitter-tweet"><p lang="en" dir="ltr">.<a href="https://twitter.com/nvidia?ref_src=twsrc%5Etfw">@NVIDIA</a> researchers presented Voyager – the first LLM-powered embodied lifelong learning agent that plays <a href="https://twitter.com/hashtag/Minecraft?src=hash&ref_src=twsrc%5Etfw">#Minecraft</a> in context. It "explores the world, acquires diverse skills, and makes novel discoveries without human intervention."<a href="https://t.co/1YPeN2aEdT">https://t.co/1YPeN2aEdT</a><a href="https://twitter.com/hashtag/games?src=hash&ref_src=twsrc%5Etfw">#games</a> <a href="https://twitter.com/hashtag/AI?src=hash&ref_src=twsrc%5Etfw">#AI</a> <a href="https://twitter.com/hashtag/LLMs?src=hash&ref_src=twsrc%5Etfw">#LLMs</a> <a href="https://t.co/s5AwIAZb5X">pic.twitter.com/s5AwIAZb5X</a></p>— 80 LEVEL (@80Level) <a href="https://twitter.com/80Level/status/1665727679759544321?ref_src=twsrc%5Etfw">June 5, 2023</a></blockquote> <script async src="https://platform.twitter.com/widgets.js" charset="utf-8"></script>[/tweet]
Il se compose de trois éléments clés :
- un programme automatique qui maximise l'exploration ;
- une bibliothèque de compétences sans cesse croissante de code exécutable pour stocker et récupérer des comportements complexes ;
- un nouveau mécanisme d'incitation itératif qui incorpore le retour d'information de l'environnement, les erreurs d'exécution et l'auto-vérification pour l'amélioration du programme. Voyager interagit avec GPT-4 par le biais de requêtes "boîte noire", ce qui permet d'éviter la nécessité d'un réglage fin des paramètres du modèle.
Les compétences développées par Voyager sont étendues dans le temps, interprétables et composées, ce qui permet d'augmenter rapidement les capacités de l'agent et d'éviter les oublis catastrophiques. Empiriquement, Voyager fait preuve d'une forte potentialité d'apprentissage tout au long de la vie en contexte et démontre une compétence exceptionnelle en jouant à Minecraft. Il obtient 3,3 fois plus d'objets uniques, parcourt 2,3 fois plus de distances et débloque des étapes clés de l'arbre technologique jusqu'à 15,3 fois plus vite que les SOTA précédents.
Voyager est capable d'utiliser la bibliothèque de compétences apprises dans un nouveau monde Minecraft pour résoudre des tâches inédites à partir de zéro, alors que d'autres techniques peinent à se généraliser.
Minecraft est un jeu de construction et d’exploration dans un monde virtuel composé de blocs. Le bot, nommé Voyager, utilise GPT-4 pour se fixer des objectifs dans le jeu, comme pêcher, construire des outils ou explorer le monde. Il utilise ensuite GPT-4 pour générer du code qui lui permet de réaliser ces objectifs. Le code est adapté au langage de programmation utilisé par Minecraft et à l’interface qui permet au bot de lire l’état du jeu.
Si le code ne fonctionne pas parfaitement, le bot essaie de l’améliorer en utilisant les messages d’erreur, le feedback du jeu et la description du code que GPT-4 lui fournit. Ainsi, le bot apprend de ses expériences et enrichit sa bibliothèque de code au fil du temps. En comparant les performances de Voyager avec celles d’autres agents artificiels dans Minecraft, les chercheurs montrent que Voyager obtient plus d’objets, explore plus loin et construit plus vite que ses concurrents.
Les chercheurs soulignent aussi les limites du projet, comme le fait que le bot ne peut pas utiliser les informations visuelles du jeu. Ilsconcluent en montrant l’intérêt du projet pour démontrer le potentiel des modèles de langage pour réaliser des actions utiles sur les ordinateurs, au-delà de la simple génération de texte. Le texte donne comme exemples l’automatisation des tâches de bureau ou l’interaction avec des services en ligne.
La construction d'agents incarnés généralement capables d'explorer, de planifier et de développer de nouvelles compétences dans des mondes ouverts est un grand défi pour la communauté de l'IA. Les approches classiques utilisent l'apprentissage par renforcement (RL) et l'apprentissage par imitation qui opèrent sur des actions primitives, ce qui pourrait être un défi pour l'exploration systématique, l'interprétabilité et la généralisation.
Les progrès récents des agents basés sur les grands modèles de langage (LLM) exploitent la connaissance du monde encapsulée dans des LLM pré-entraînés pour générer des plans d'action cohérents ou des politiques exécutables. Ils sont appliqués à des tâches incarnées telles que les jeux et la robotique, ainsi qu'à des tâches de TAL sans incarnation. Toutefois, ces agents ne sont pas des apprenants permanents capables d'acquérir, de mettre à jour, d'accumuler et de transférer progressivement des connaissances sur de longues périodes.
Prenant l'exemple de Minecraft, contrairement à la plupart des autres jeux étudiés dans le domaine de l'IA, Minecraft n'impose pas d'objectif final prédéfini ni de scénario fixe, mais offre plutôt un terrain de jeu unique aux possibilités infinies. Un agent efficace d'apprentissage tout au long de la vie devrait avoir des capacités similaires à celles des joueurs humains :
- proposer des tâches appropriées en fonction de son niveau de compétence actuel et de l'état du monde, par exemple apprendre à récolter du sable et des cactus avant le fer s'il se trouve dans un désert plutôt que dans une forêt ;
- affiner les compétences en fonction des commentaires de l'environnement et mémoriser les compétences maîtrisées pour les réutiliser ultérieurement dans des situations similaires (par exemple, combattre des zombies est similaire à combattre des araignées) ;
- explorer continuellement le monde et rechercher de nouvelles tâches de manière autodirigée.
Composants de Voyager
Voyager permet de conduire l'exploration, de maîtriser un large éventail de compétences et de faire de nouvelles découvertes en permanence sans intervention humaine dans Minecraft. Les chercheurs de NVIDIA ont choisi d'utiliser le code comme espace d'action plutôt que des commandes motrices de bas niveau parce que les programmes peuvent naturellement représenter des actions temporelles et compositionnelles, qui sont essentielles pour de nombreuses tâches à long terme dans Minecraft.
Dans ce travail, les chercheurs de NVIDIA presentent Voyager, le premier agent incarné d'apprentissage alimenté par LLM, qui exploite GPT-4 pour explorer le monde en continu, développer des compétences de plus en plus sophistiquées et faire de nouvelles découvertes de manière cohérente sans intervention humaine. Voyager affiche des performances supérieures dans la découverte de nouveaux objets, le déverrouillage de l'arbre technologique de Minecraft, la traversée de divers terrains et l'application de sa bibliothèque de compétences acquises à des tâches inédites dans un monde nouvellement instancié.
Voyager sert de point de départ au développement d'agents généralistes puissants sans avoir à régler les paramètres du modèle. Il interagit avec une boîte noire LLM (GPT-4) par le biais d'invites et d'un apprentissage en contexte. L’approche des chercheurs de contourner la nécessité d'accéder aux paramètres du modèle et de procéder à un apprentissage ou à un réglage fin explicite basé sur le gradient.
Source : Researchers' work results
Et vous ?
Quels sont, selon vous, les avantages et les inconvénients de brancher GPT-4 sur Minecraft ?
Quelles peuvent être les limites et les risques potentiels de cette expérience ?
Quelles sont les implications éthiques et sociales de créer des mondes virtuels avec GPT-4 ?
Voir aussi :
L'API Scripting de Minecraft, qui permet la création d'add-on, passe en bêta publique et n'est disponible que pour les bêta testeurs sur Windows 10
Minecraft bloque la blockchain de son jeu de bloc. « La rareté et l'exclusion » de projets comme NFT Worlds iraient à l'encontre des valeurs du jeu