IdentifiantMot de passe
Loading...
Mot de passe oublié ?Je m'inscris ! (gratuit)

Vous êtes nouveau sur Developpez.com ? Créez votre compte ou connectez-vous afin de pouvoir participer !

Vous devez avoir un compte Developpez.com et être connecté pour pouvoir participer aux discussions.

Vous n'avez pas encore de compte Developpez.com ? Créez-en un en quelques instants, c'est entièrement gratuit !

Si vous disposez déjà d'un compte et qu'il est bien activé, connectez-vous à l'aide du formulaire ci-dessous.

Identifiez-vous
Identifiant
Mot de passe
Mot de passe oublié ?
Créer un compte

L'inscription est gratuite et ne vous prendra que quelques instants !

Je m'inscris !

L'IA peut désormais générer Doom sans moteur de jeu : des chercheurs ont publié un article décrivant comment leur IA "GameNGen" peut créer un jeu de type Doom sur un réseau neuronal

Le , par Anthony

23PARTAGES

7  1 
Des chercheurs de Google ont publié un article expliquant comment leur intelligence artificielle (IA) « GameNGen » peut créer un jeu semblable à Doom sur un réseau neuronal.

Doom est un jeu de tir à la première personne développé et publié par id Software. Sorti le 10 décembre 1993 sur DOS, il s'agit du premier opus de la franchise Doom. Le joueur incarne un marine de l'espace, plus tard officieusement appelé Doomguy, qui se bat contre des hordes de morts-vivants et de démons envahissants. Le jeu commence sur les lunes de Mars et se termine en enfer, le joueur traversant chaque niveau pour trouver la sortie ou vaincre le boss final. Il s'agit d'un des premiers exemples de graphisme en 3D dans les jeux vidéo. Les ennemis et les objets sont des images en 2D, une technique parfois appelée graphisme en 2,5D.


Les scientifiques, Dani Valevski, Yaniv Leviathan, Moab Arar et Shlomi Fruchter à l'origine de GameGen, ont associé Stable Diffusion, l'IA de génération d'images de Stability AI, à la détection d'entrée, au traitement des images générées précédemment et à la production de nouvelles images (et donc de sections de jeu/de niveaux) qui sont cohérentes d'un moment à l'autre.

Cela signifie que vous ne jouerez pas à de véritables niveaux de Doom sur GameNGen. Le modèle utilise ce qu'il sait de Doom pour créer des niveaux semblables à ceux de Doom, un peu comme le font les mods créés par des fans pour d'autres jeux. Le modèle construit des niveaux autour du joueur en temps réel, pendant qu'il joue.

Le Doom de GameNGen peut être joué comme un « vrai » jeu vidéo, avec des armes, des ennemis, des portes verrouillées et des points de vie, mais il n'est pas parfait. Dans un clip, on voit Doom Guy sauter dans du poison et sa santé rester à 4 % au lieu de mourir. C'est tout de même très impressionnant et, selon l'article, « les évaluateurs humains ne sont que légèrement meilleurs que le hasard pour distinguer les courtes séquences du jeu des séquences de la simulation ».

Comment l'équipe de GameNGen a-t-elle réussi à faire jouer Doom à une IA ?

Les IA ont besoin d'énormes quantités de données pour faire des prédictions efficaces et générer un contenu qui ait du sens. Les scientifiques ont reconnu qu'il n'était pas possible de collecter suffisamment de données de jeu auprès de joueurs humains pour entraîner leur modèle. Ils ont donc commencé par entraîner un agent IA à jouer à Doom à tous les niveaux de difficulté, en simulant un éventail de niveaux de compétence des joueurs afin d'obtenir une image aussi complète que possible de la jouabilité de Doom.

Pour contourner les défauts de la génération d'images qui entraînent une perte de précision et de cohésion au fil du temps, les scientifiques ont formé de nouvelles images en réinjectant les images précédentes, ainsi que les entrées de l'utilisateur, au-delà des invites typiques d'une seule image. Ils ont ensuite corrompu ces images avec du bruit gaussien (un type de bruit électrique aléatoire) et ont utilisé un réseau distinct pour corriger ces images. Cela a permis de créer une boucle d'autocorrection qui a permis de jouer sur des périodes beaucoup plus longues que sans cette méthode.

À l'heure actuelle, le générateur ne dispose que d'une mémoire d'environ trois secondes, ce qui signifie qu'il ne sait pas vraiment ce que vous avez fait il y a une minute.

Cela signifie que les éléments qui nécessitent une connaissance permanente du jeu, comme les clés possédées, sont difficiles à gérer et constituent un obstacle critique que les scientifiques continueront de travailler à surmonter.

Bien qu'encore imparfait, GameNGen constitue une avancée importante pour les jeux et les moteurs générés par l'IA. De plus, il contribue au vaste genre « quelqu'un a mis Doom sur [...] », qui s'est récemment étendu à « quelqu'un a mis Doom dans Fortnite », un groupe prestigieux et croissant de clones légers de Doom.

Qu'est ce que GameGen ?

GameNGen est le premier moteur de jeu entièrement alimenté par un modèle neuronal qui permet d'interagir en temps réel avec un environnement complexe sur de longues trajectoires avec une qualité élevée. GameNGen peut simuler de manière interactive le jeu classique Doom à plus de 20 images par seconde sur une seule TPU. La prédiction de l'image suivante atteint un PSNR de 29,4, comparable à la compression JPEG avec perte. Les évaluateurs humains sont à peine plus performants que le hasard pour distinguer les courtes séquences du jeu des séquences de la simulation.

GameNGen est formé en deux phases : (1) un agent d'apprentissage par renforcement apprend à jouer au jeu et les sessions de formation sont enregistrées, et (2) un modèle de diffusion est formé pour produire l'image suivante, conditionnée par la séquence d'images et d'actions antérieures. Les augmentations de conditionnement permettent une génération auto-régressive stable sur de longues trajectoires.

Architecture de GameGen


Collecte de données via le jeu d'un agent : comme il n'est pas possible de collecter des données sur le jeu humain à grande échelle, les auteurs de GameGen ont, dans un premier temps, entraîné un agent RL automatique à jouer au jeu, en conservant ses épisodes d'entraînement d'actions et d'observations, qui deviennent les données d'entraînement pour le modèle génératif.

Entraînement du modèle génératif de diffusion : les auteurs ont réutilisé un petit modèle de diffusion, Stable Diffusion v1.4, et l'ont conditionné à une séquence d'actions et d'observations antérieures (frames). Pour atténuer la dérive autorégressive pendant l'inférence, ils ont corrompu les trames de contexte en ajoutant un bruit gaussien aux trames encodées pendant l'entraînement. Cela permet au réseau de corriger les informations échantillonnées dans les images précédentes et s'est avéré essentiel pour préserver la stabilité visuelle sur de longues périodes de temps.

Réglage fin du décodeur latent : L'auto-encodeur pré-entraîné de Stable Diffusion v1.4, qui compresse des patchs de 8x8 pixels en 4 canaux latents, produit des artefacts significatifs lors de la prédiction des images de jeu, qui affectent les petits détails et en particulier le HUD de la barre inférieure. Pour tirer parti des connaissances pré-entraînées tout en améliorant la qualité de l'image, les auteurs ont entraîné uniquement le décodeur de l'auto-encodeur latent à l'aide d'une perte MSE calculée par rapport aux pixels de l'image cible.

Source : "Diffusion models are real-time game engines" (étude de Google)

Et vous ?

Quel est votre avis sur le sujet ?
Trouvez-vous cette étude de Google Research crédible ou pertinente ?
Avez-vous utilisé cet outil ou un outil similaire pour votre usage ou le développement d'applications, et si oui qu'en pensez-vous ?

Voir aussi :

La nouvelle IA de Google pour les jeux vidéo vise à dépasser le stade de l'"adversaire surhumain" et à devenir un "partenaire obéissant" qui interprète et exécute des instructions en langage naturel

Tout le monde pourra-t-il bientôt créer des jeux vidéo en s'appuyant sur l'intelligence artificielle ? Les compétences artistiques ou en matière de codage informatique deviendront-elles inutiles ?

Créez bientôt votre propre Holodeck : Google Deepmind dévoile Genie, un modèle d'IA créant des mondes virtuels jouables à partir d'une seule image

Une erreur dans cette actualité ? Signalez-nous-la !

Avatar de Jules34
Membre émérite https://www.developpez.com
Le 02/09/2024 à 10:27
Technologiquement parlant c'est impressionnant.

Par contre ça donne un peu le sentiment du serpent qui se mange la queue. C'était rigolo de mettre doom partout mais un jour ou l'autre il faudra bien aller de l'avant et faire quelque chose de nouveau. Sinon ça donne un peu l'impression que les mecs innovent mais ne savent pas quoi faire de cette innovation à part faire tourner doom dedans entre deux générations de photos de chat mignon.

C'est un peu comme si on construisait des moteurs quantique turbo-nucléaire pour refaire rouler des 2CV.
3  0