La nouvelle IA de Google pour les jeux vidéo vise à dépasser le stade de l'"adversaire surhumain" et à devenir un "partenaire obéissant"

Qui interprète et exécute des instructions en langage naturel

Le 14 mars 2024 à 19:22, par Mathis Lucas

489PARTAGES

Google DeepMind dévoile un nouvel agent d'IA appelé SIMA (Scalable Instructable Multiworld Agent) pour les environnements virtuels en 3D après les succès d'AlphaStar et d'AlphaGo. Ce nouvel agent d'IA polyvalent peut exécuter des tâches dans divers environnements de jeux vidéo sur la base d'instructions en langage naturel, ce qui marque un tournant vers une approche généralisée de la recherche sur l'IA dans les jeux. Google DeepMind précise que le projet est toujours expérimental et qu'il y a encore un long chemin à parcourir. L'année dernière, Nvidia a lancé une plateforme qui permet aux joueurs de converser avec les personnages non jouables (PNJ).

SIMA : un agent d'IA conçu pour interagir avec des mondes virtuels en 3D

SIMA est un nouvel agent d'IA conçu pour interagir avec des mondes virtuels en 3D sur la base d'instructions en langage naturel. Il comprend des modèles de vision artificielle et de langage préentraînés qui ont été affinés à partir de données de jeu. Le langage est essentiel pour que SIMA comprenne les tâches qui lui sont confiées et les accomplisse conformément aux instructions. Selon Google DeepMind, l'interface simple de SIMA lui permet de fonctionner potentiellement dans n'importe quel monde virtuel avec lequel un humain peut interagir, ouvrant ainsi la voie à un nouveau niveau de polyvalence pour les agents d'IA.

« Apprendre à jouer à un seul jeu vidéo est un exploit technique pour un système d'IA, mais apprendre à suivre des instructions dans divers contextes de jeu pourrait déboucher sur des agents d'IA plus utiles dans n'importe quel environnement. Notre recherche montre comment nous pouvons traduire les capacités des modèles d'IA avancés en actions utiles dans le monde réel par le biais d'une interface linguistique », explique Google DeepMind dans un billet de blogue sur SIMA. Les principales caractéristiques de SIMA sont :

capacité à percevoir et à comprendre différents environnements 3D par le biais d'images uniquement ;
capacité à suivre des instructions en langage naturel fournies par un utilisateur ;
utilisation du clavier et de la souris pour interagir avec les environnements ;
l'interface ne nécessite que des images et du texte, pas d'API ou de codes sources spécifiques au jeu.

Méthode de formation de SIMA

Les chercheurs de Google DeepMind ont fait équipe avec des studios et des éditeurs tels que Hello Games (No Man's Sky), Tuxedo Labs (Teardown) et Coffee Stain (Valheim et Goat Simulator 3) pour former SIMA sur neuf jeux. L'équipe de recherche a en outre utilisé quatre environnements de recherche, dont un construit en Unity dans lequel les agents doivent former des sculptures à l'aide de blocs de construction. SIMA a ainsi pu apprendre à partir d'une série d'environnements et de contextes, avec une variété de styles graphiques et de perspectives (à la première et à la troisième personne). L'équipe explique son approche :

« Nous espérons que SIMA et d'autres recherches sur les agents pourront utiliser les jeux vidéo comme "bacs à sable" pour mieux comprendre comment les systèmes d'IA peuvent devenir plus utiles ». Chaque jeu du portefeuille de SIMA ouvre un nouveau monde virtuel interactif, comprenant une gamme de compétence à apprendre, allant de la simple navigation et de l'utilisation des menus à l'extraction de ressources, au pilotage d'un vaisseau spatial ou la fabrication d'un casque. Une autre approche de l'équipe a consisté à enregistrer des joueurs humains dans des jeux qui se donnaient des instructions sur des tâches.

En outre, les joueurs ont été invités à rejouer leur propre jeu et à décrire les instructions qui les ont conduits à agir. Cette puissante méthode de collecte de données a permis à l'agent SIMA d'apprendre les bases visuelles du langage à partir de l'expérience réelle des humains dans les environnements. Ensuite, l'agent a été évalué sur sa capacité à accomplir près de 1 500 tâches uniques à travers les jeux en se basant uniquement sur des images à l'écran et des instructions textuelles.

En somme, l'agent d'IA SIMA comprend des modèles de vision préentraînés et un modèle central doté d'une mémoire, qui interprète les images et les entrées en langage naturel afin de générer des actions au clavier et à la souris pour le jeu. Les chercheurs précisent que SIMA n'a pas besoin du code source d'un jeu ou d'un accès à l'API ; il fonctionne sur les versions commerciales d'un jeu. Il n'a besoin que de deux entrées : ce qui est affiché à l'écran et les instructions de l'utilisateur.

L'agent est évalué sur des compétences de base dans plusieurs catégories, notamment la navigation ("tourner à droite&quot

, l'interaction avec des objets ("ramasser des champignons&quot

et des tâches basées sur des menus, telles que l'ouverture d'une carte ou la fabrication d'un objet. À terme, Google DeepMind espère pouvoir ordonner à des agents d'effectuer des tâches plus complexes et en plusieurs étapes en se basant sur des messages en langage naturel, tels que "trouver des ressources et construire un camp".

Les performances de SIMA

Selon le billet de blogue de Google DeepMind, l'évaluation de SIMA sur 600 compétences de base démontre une maîtrise de la navigation, de l'interaction avec les objets et de l'utilisation des menus, en se concentrant sur des tâches réalisables en peu de temps. En matière de performances, contrairement aux modèles d'IA spécialisés formés pour des jeux particuliers, SIMA obtient de meilleurs résultats en généralisant ses connaissances à de multiples environnements et montre des compétences dans des jeux inédits.

De manière plus générale, toutefois, la réussite de SIMA variait considérablement en fonction des différents types de commandes ; le modèle a obtenu environ 75 % de réussite pour les tâches de conduite contre 40 % pour les tâches de marche, par exemple. Notamment, le billet de blogue de Google DeepMind indique qu'un agent SIMA formé sur les neuf jeux de l'ensemble des chercheurs a nettement surpassé les agents spécialisés formés uniquement sur chacun d'entre eux, montrant ainsi une plus grande capacité globale.

Le rapport technique quantifie cette amélioration à 67 % lorsque les jeux extérieurs sont inclus dans les données d'entraînement, un signe de "transfert positif" dans différents environnements qui constitue une "étape clé" dans les résultats de SIMA. Ce qui est particulièrement intéressant, c'est qu'une version de SIMA qui a été entraînée dans les huit autres jeux et qui a ensuite joué à l'autre jeu a obtenu des résultats presque aussi bons en moyenne qu'un agent qui n'a été entraîné qu'à ce dernier jeu.

Google DeepMind indique : « cette capacité à fonctionner dans des environnements totalement nouveaux met en évidence la capacité de SIMA à généraliser au-delà de son entraînement. Il s'agit d'un premier résultat prometteur, mais des recherches supplémentaires sont nécessaires pour que SIMA atteigne des performances humaines dans des jeux vus et non vus ». Dans No Man's Sky, par exemple, SIMA n'a réussi que 34 % des tâches testées, contre 60 % pour un humain.

Selon les chercheurs, le faible score de l'humain reflète la difficulté des tâches qu'ils ont considérées dans ce projet et la rigueur dans les critères d'évaluation. Ils ont également déclaré que...

La fin de cet article est réservée aux abonnés. Soutenez le Club Developpez.com en prenant un abonnement pour que nous puissions continuer à vous proposer des publications.

Une erreur dans cette actualité ? Signalez-nous-la !

Votre nom : Votre e-mail :

Décrivez l'erreur que vous souhaitez porter à notre connaissance :

Identifiez-vous

Créer un compte

La nouvelle IA de Google pour les jeux vidéo vise à dépasser le stade de l'"adversaire surhumain" et à devenir un "partenaire obéissant"

Qui interprète et exécute des instructions en langage naturel

Identifiant
Mot de passe

Mot de passe oublié ?

Identifiez-vous

Créer un compte

La nouvelle IA de Google pour les jeux vidéo vise à dépasser le stade de l'"adversaire surhumain" et à devenir un "partenaire obéissant" Qui interprète et exécute des instructions en langage naturel

La nouvelle IA de Google pour les jeux vidéo vise à dépasser le stade de l'"adversaire surhumain" et à devenir un "partenaire obéissant"

Qui interprète et exécute des instructions en langage naturel