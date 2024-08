Doom est un jeu de tir à la première personne développé et publié par id Software. Sorti le 10 décembre 1993 sur DOS, il s'agit du premier opus de la franchise Doom. Le joueur incarne un marine de l'espace, plus tard officieusement appelé Doomguy, qui se bat contre des hordes de morts-vivants et de démons envahissants. Le jeu commence sur les lunes de Mars et se termine en enfer, le joueur traversant chaque niveau pour trouver la sortie ou vaincre le boss final. Il s'agit d'un des premiers exemples de graphisme en 3D dans les jeux vidéo. Les ennemis et les objets sont des images en 2D, une technique parfois appelée graphisme en 2,5D.Les scientifiques, Dani Valevski, Yaniv Leviathan, Moab Arar et Shlomi Fruchter à l'origine de GameGen, ont associé Stable Diffusion, l'IA de génération d'images de Stability AI, à la détection d'entrée, au traitement des images générées précédemment et à la production de nouvelles images (et donc de sections de jeu/de niveaux) qui sont cohérentes d'un moment à l'autre.Cela signifie que vous ne jouerez pas à de véritables niveaux de Doom sur GameNGen. Le modèle utilise ce qu'il sait de Doom pour créer des niveaux semblables à ceux de Doom, un peu comme le font les mods créés par des fans pour d'autres jeux. Le modèle construit des niveaux autour du joueur en temps réel, pendant qu'il joue.Le Doom de GameNGen peut être joué comme un « vrai » jeu vidéo, avec des armes, des ennemis, des portes verrouillées et des points de vie, mais il n'est pas parfait. Dans un clip, on voit Doom Guy sauter dans du poison et sa santé rester à 4 % au lieu de mourir. C'est tout de même très impressionnant et, selon l'article, « les évaluateurs humains ne sont que légèrement meilleurs que le hasard pour distinguer les courtes séquences du jeu des séquences de la simulation ».Les IA ont besoin d'énormes quantités de données pour faire des prédictions efficaces et générer un contenu qui ait du sens. Les scientifiques ont reconnu qu'il n'était pas possible de collecter suffisamment de données de jeu auprès de joueurs humains pour entraîner leur modèle. Ils ont donc commencé par entraîner un agent IA à jouer à Doom à tous les niveaux de difficulté, en simulant un éventail de niveaux de compétence des joueurs afin d'obtenir une image aussi complète que possible de la jouabilité de Doom.Pour contourner les défauts de la génération d'images qui entraînent une perte de précision et de cohésion au fil du temps, les scientifiques ont formé de nouvelles images en réinjectant les images précédentes, ainsi que les entrées de l'utilisateur, au-delà des invites typiques d'une seule image. Ils ont ensuite corrompu ces images avec du bruit gaussien (un type de bruit électrique aléatoire) et ont utilisé un réseau distinct pour corriger ces images. Cela a permis de créer une boucle d'autocorrection qui a permis de jouer sur des périodes beaucoup plus longues que sans cette méthode.À l'heure actuelle, le générateur ne dispose que d'une mémoire d'environ trois secondes, ce qui signifie qu'il ne sait pas vraiment ce que vous avez fait il y a une minute.Cela signifie que les éléments qui nécessitent une connaissance permanente du jeu, comme les clés possédées, sont difficiles à gérer et constituent un obstacle critique que les scientifiques continueront de travailler à surmonter.Bien qu'encore imparfait, GameNGen constitue une avancée importante pour les jeux et les moteurs générés par l'IA. De plus, il contribue au vaste genre « quelqu'un a mis Doom sur [...] », qui s'est récemment étendu à « quelqu'un a mis Doom dans Fortnite », un groupe prestigieux et croissant de clones légers de Doom.GameNGen est le premier moteur de jeu entièrement alimenté par un modèle neuronal qui permet d'interagir en temps réel avec un environnement complexe sur de longues trajectoires avec une qualité élevée. GameNGen peut simuler de manière interactive le jeu classique Doom à plus de 20 images par seconde sur une seule TPU. La prédiction de l'image suivante atteint un PSNR de 29,4, comparable à la compression JPEG avec perte. Les évaluateurs humains sont à peine plus performants que le hasard pour distinguer les courtes séquences du jeu des séquences de la simulation.GameNGen est formé en deux phases : (1) un agent d'apprentissage par renforcement apprend à jouer au jeu et les sessions de formation sont enregistrées, et (2) un modèle de diffusion est formé pour produire l'image suivante, conditionnée par la séquence d'images et d'actions antérieures. Les augmentations de conditionnement permettent une génération auto-régressive stable sur de longues trajectoires.comme il n'est pas possible de collecter des données sur le jeu humain à grande échelle, les auteurs de GameGen ont, dans un premier temps, entraîné un agent RL automatique à jouer au jeu, en conservant ses épisodes d'entraînement d'actions et d'observations, qui deviennent les données d'entraînement pour le modèle génératif.les auteurs ont réutilisé un petit modèle de diffusion, Stable Diffusion v1.4, et l'ont conditionné à une séquence d'actions et d'observations antérieures (frames). Pour atténuer la dérive autorégressive pendant l'inférence, ils ont corrompu les trames de contexte en ajoutant un bruit gaussien aux trames encodées pendant l'entraînement. Cela permet au réseau de corriger les informations échantillonnées dans les images précédentes et s'est avéré essentiel pour préserver la stabilité visuelle sur de longues périodes de temps.L'auto-encodeur pré-entraîné de Stable Diffusion v1.4, qui compresse des patchs de 8x8 pixels en 4 canaux latents, produit des artefacts significatifs lors de la prédiction des images de jeu, qui affectent les petits détails et en particulier le HUD de la barre inférieure. Pour tirer parti des connaissances pré-entraînées tout en améliorant la qualité de l'image, les auteurs ont entraîné uniquement le décodeur de l'auto-encodeur latent à l'aide d'une perte MSE calculée par rapport aux pixels de l'image cible.