Un nouveau jour, une nouvelle annonce de développement de modèle d'intelligence artificielle (IA). Alors que différentes entreprises ne cessent de lancer des produits et des fonctionnalités d'IA, Google présente un nouveau modèle d'IA. Baptisé Genie 2, ce modèle serait capable de générer des mondes interactifs en 3D à partir d'une simple invite. Ce modèle est la version de Genie, un modèle d'IA que Google Deepmind a dévoilé en février 2024.
Genie, l'IA de Google Deepmind, redessine le paysage de la conception de jeux, démocratise le processus de création et offre un aperçu d'un avenir où l'IA génère du contenu de manière autonome. De la transformation de croquis en univers virtuels aux applications potentielles en robotique, Deepmind souhaite ouvrir la voie à une nouvelle ère de créativité avec Genie.
Avec Genie 2, vous pourrez générer une scène interactive en temps réel à partir d'une simple image et d'une description textuelle. Comme son nom l'indique, "Genie" se veut être un véritable génie qui exauce vos souhaits. DeepMind affirme que Genie 2 peut générer une "grande diversité de mondes 3D riches", y compris des mondes dans lesquels vous pouvez agir. Du saut à la natation, tout peut se faire à l'aide d'une souris ou d'un clavier. Le modèle d'IA est entraîné sur des vidéos et a la capacité d'améliorer les animations, les interactions entre les objets, l'éclairage, les reflets, la physique et le comportement des "PNJ".
Outre ces fonctionnalités, DeepMind affirme que Genie 2 peut également générer des mondes cohérents avec différentes perspectives. Il montrera deux "mondes 3D" différents pendant une minute, la plupart durant 10 à 20 secondes. Certains analystes suggèrent que les simulations de Genie 2 peuvent ressembler à des jeux vidéo AAA. Le nouvel outil d'IA peut créer des scénarios de jeux et des environnements en 3D.
Cependant, les critiques ont soulevé des questions sur la cohérence, l'artifice et les problèmes liés aux hallucinations. Certains ont même demandé si Genie 2 n'était pas en train de créer des copies non autorisées des jeux vidéo qu'il venait de voir ou sur lesquels il s'entraînait. En réponse à ces questions, l'équipe de DeepMind a déclaré que Genie 2 ne pouvait se souvenir que de certaines parties d'une scène simulée. Cela signifie qu'il ne copiera pas et ne sauvegardera pas les données de jeux aléatoires. L'entreprise a expliqué que cela le met à l'abri des problèmes de violation des droits d'auteur.
Envoyé par Google Deepmind
Voici les caractéristiques de Genie 2 selon Google Deepmind :
Capacités émergentes d'un modèle de base de monde
Jusqu'à présent, les modèles de monde ont été largement limités à la modélisation de domaines étroits. Dans Genie 1, Deepmind a présenté une approche permettant de générer un large éventail de mondes en 2D. Genie 2 représente une avancée significative en termes d'échelle. Genie 2 peut générer une grande diversité de mondes 3D.
Genie 2 est un modèle de monde, ce qui signifie qu'il peut simuler des mondes virtuels, y compris les conséquences de toute action (par exemple, sauter, nager, etc.). Il a été entraîné sur un ensemble de données vidéo à grande échelle et, comme d'autres modèles génératifs, il démontre diverses capacités émergentes à grande échelle, telles que les interactions entre objets, l'animation de personnages complexes, la physique et la capacité de modéliser et donc de prédire le comportement d'autres agents.
Genie 2 permet un prototypage rapide
Genie 2 facilite le prototypage rapide de diverses expériences interactives, ce qui permet aux chercheurs d'expérimenter rapidement de nouveaux environnements pour former et tester des agents d'IA incarnés.
Grâce aux capacités de généralisation hors distribution de Genie 2, les concepts et les dessins peuvent être transformés en environnements interactifs. Les artistes et les concepteurs peuvent ainsi créer rapidement des prototypes, ce qui permet d'amorcer le processus créatif de la conception d'environnements et d'accélérer la recherche.
Agents d'IA agissant à l'intérieur du modèle de monde
En utilisant Genie 2 pour créer rapidement des environnements riches et variés pour les agents d'intelligence artificielle (IA), les chercheurs peuvent également générer des tâches d'évaluation que les agents n'ont pas vues pendant leur formation. L'agent SIMA est conçu pour accomplir des tâches dans une série de jeux en 3D en suivant des instructions en langage naturel. L'agent SIMA a également été utilisé pour évaluer les capacités de Genie 2.
Bien que cette recherche en soit encore à ses débuts et qu'il y ait encore beaucoup à faire pour améliorer les capacités de génération d'agents et d'environnements, Deepmind pense que Genie 2 est la voie à suivre pour résoudre un problème structurel de formation d'agents incarnés en toute sécurité, tout en atteignant l'ampleur et la généralité requises pour progresser vers l'AGI.
Modèle de diffusion de monde
Genie 2 est un modèle de diffusion latent auto-régressif, entraîné sur un vaste ensemble de données vidéo. Après avoir traversé un auto-encodeur, les images latentes de la vidéo sont transmises à un grand modèle de dynamique de transformation, entraîné avec un masque causal similaire à celui utilisé par les grands modèles de langage.
Au moment de l'inférence, Genie 2 peut être échantillonné de manière auto-régressive, en prenant en compte les actions individuelles et les images latentes passées, image par image. Deepmind a utilisé un guidage sans classificateur pour améliorer la contrôlabilité des actions.
Développer Genie 2 de manière responsable
Genie 2 montre le potentiel des modèles de base de monde pour créer divers environnements 3D et accélérer la recherche sur les agents. Cette direction de recherche n'en est qu'à ses débuts et nous sommes impatients de continuer à améliorer les capacités de génération de monde de Genie en termes de généralité et de cohérence.
Comme pour la LMSI, les recherches de Deepmind visent à mettre au point des systèmes et des agents d'IA plus généraux, capables de comprendre et d'exécuter en toute sécurité un large éventail de tâches d'une manière qui soit utile aux personnes en ligne et dans le monde réel.
Source : Présentation de Genie 2
Et vous ?
Pensez-vous que ce nouveau modèle de Deepmind est crédible ou pertinent ?
Quel est votre avis sur le sujet ?
Voir aussi :
La nouvelle IA de Google pour les jeux vidéo vise à dépasser le stade de l'"adversaire surhumain" et à devenir un "partenaire obéissant" qui interprète et exécute des instructions en langage naturel
Oasis, le premier jeu vidéo entièrement généré par IA : une avancée majeure ou une réplique de Minecraft, avec des questions juridiques en toile de fond ?
L'IA prend déjà des emplois dans l'industrie du jeu vidéo : des acteurs majeurs comme Activision Blizzard, qui a récemment licencié, utilisent la GenAI pour le développement de jeux, selon une enquête