Envoyé par Google Deepmind Envoyé par Nous présentons aujourd'hui Genie 2, un modèle de base de monde capable de générer une variété infinie d'environnements 3D jouables et contrôlables par l'action pour la formation et l'évaluation d'agents incarnés. Basé sur une image unique, il peut être joué par un agent humain ou IA à l'aide d'un clavier et d'une souris.



Les jeux jouent un rôle clé dans le monde de la recherche sur l'intelligence artificielle (IA). Leur nature attrayante, leur combinaison unique de défis et leurs progrès mesurables en font des environnements idéaux pour tester et faire progresser les capacités de l'IA en toute sécurité.



En effet, les jeux sont importants pour Google DeepMind depuis sa création. Depuis nos premiers travaux avec les jeux Atari, les percées telles qu'AlphaGo et AlphaStar, jusqu'à nos recherches sur les agents généralistes en collaboration avec les développeurs de jeux, les jeux ont été au cœur de nos recherches. Cependant, la formation d'agents incarnés plus généraux a toujours été entravée par la disponibilité d'environnements de formation suffisamment riches et diversifiés.



Comme nous le montrons, Genie 2 pourrait permettre aux futurs agents d'être formés et évalués dans un nombre illimité de mondes nouveaux. Notre recherche ouvre également la voie à de nouveaux flux de travail créatifs pour le prototypage d'expériences interactives.

Un nouveau jour, une nouvelle annonce de développement de modèle d'intelligence artificielle (IA). Alors que différentes entreprises ne cessent de lancer des produits et des fonctionnalités d'IA, Google présente un nouveau modèle d'IA. Baptisé Genie 2, ce modèle serait capable de générer des mondes interactifs en 3D à partir d'une simple invite. Ce modèle est la version de Genie, un modèle d'IA que Google Deepmind a dévoilé en février 2024 Genie, l'IA de Google Deepmind, redessine le paysage de la conception de jeux, démocratise le processus de création et offre un aperçu d'un avenir où l'IA génère du contenu de manière autonome. De la transformation de croquis en univers virtuels aux applications potentielles en robotique, Deepmind souhaite ouvrir la voie à une nouvelle ère de créativité avec Genie.Avec Genie 2, vous pourrez générer une scène interactive en temps réel à partir d'une simple image et d'une description textuelle. Comme son nom l'indique, "Genie" se veut être un véritable génie qui exauce vos souhaits. DeepMind affirme que Genie 2 peut générer une "", y compris des mondes dans lesquels vous pouvez agir. Du saut à la natation, tout peut se faire à l'aide d'une souris ou d'un clavier. Le modèle d'IA est entraîné sur des vidéos et a la capacité d'améliorer les animations, les interactions entre les objets, l'éclairage, les reflets, la physique et le comportement des "PNJ".Outre ces fonctionnalités, DeepMind affirme que Genie 2 peut également générer des mondes cohérents avec différentes perspectives. Il montrera deux "mondes 3D" différents pendant une minute, la plupart durant 10 à 20 secondes. Certains analystes suggèrent que les simulations de Genie 2 peuvent ressembler à des jeux vidéo AAA. Le nouvel outil d'IA peut créer des scénarios de jeux et des environnements en 3D.Cependant, les critiques ont soulevé des questions sur la cohérence, l'artifice et les problèmes liés aux hallucinations. Certains ont même demandé si Genie 2 n'était pas en train de créer des copies non autorisées des jeux vidéo qu'il venait de voir ou sur lesquels il s'entraînait. En réponse à ces questions, l'équipe de DeepMind a déclaré que Genie 2 ne pouvait se souvenir que de certaines parties d'une scène simulée. Cela signifie qu'il ne copiera pas et ne sauvegardera pas les données de jeux aléatoires. L'entreprise a expliqué que cela le met à l'abri des problèmes de violation des droits d'auteur.Voici les caractéristiques de Genie 2 selon Google Deepmind :Jusqu'à présent, les modèles de monde ont été largement limités à la modélisation de domaines étroits. Dans Genie 1, Deepmind a présenté une approche permettant de générer un large éventail de mondes en 2D. Genie 2 représente une avancée significative en termes d'échelle. Genie 2 peut générer une grande diversité de mondes 3D.Genie 2 est un modèle de monde, ce qui signifie qu'il peut simuler des mondes virtuels, y compris les conséquences de toute action (par exemple, sauter, nager, etc.). Il a été entraîné sur un ensemble de données vidéo à grande échelle et, comme d'autres modèles génératifs, il démontre diverses capacités émergentes à grande échelle, telles que les interactions entre objets, l'animation de personnages complexes, la physique et la capacité de modéliser et donc de prédire le comportement d'autres agents.Genie 2 facilite le prototypage rapide de diverses expériences interactives, ce qui permet aux chercheurs d'expérimenter rapidement de nouveaux environnements pour former et tester des agents d'IA incarnés.Grâce aux capacités de généralisation hors distribution de Genie 2, les concepts et les dessins peuvent être transformés en environnements interactifs. Les artistes et les concepteurs peuvent ainsi créer rapidement des prototypes, ce qui permet d'amorcer le processus créatif de la conception d'environnements et d'accélérer la recherche.En utilisant Genie 2 pour créer rapidement des environnements riches et variés pour les agents d'intelligence artificielle (IA), les chercheurs peuvent également générer des tâches d'évaluation que les agents n'ont pas vues pendant leur formation. L'agent SIMA est conçu pour accomplir des tâches dans une série de jeux en 3D en suivant des instructions en langage naturel. L'agent SIMA a également été utilisé pour évaluer les capacités de Genie 2.Bien que cette recherche en soit encore à ses débuts et qu'il y ait encore beaucoup à faire pour améliorer les capacités de génération d'agents et d'environnements, Deepmind pense que Genie 2 est la voie à suivre pour résoudre un problème structurel de formation d'agents incarnés en toute sécurité, tout en atteignant l'ampleur et la généralité requises pour progresser vers l'AGI.Genie 2 est un modèle de diffusion latent auto-régressif, entraîné sur un vaste ensemble de données vidéo. Après avoir traversé un auto-encodeur, les images latentes de la vidéo sont transmises à un grand modèle de dynamique de transformation, entraîné avec un masque causal similaire à celui utilisé par les grands modèles de langage.Au moment de l'inférence, Genie 2 peut être échantillonné de manière auto-régressive, en prenant en compte les actions individuelles et les images latentes passées, image par image. Deepmind a utilisé un guidage sans classificateur pour améliorer la contrôlabilité des actions.Genie 2 montre le potentiel des modèles de base de monde pour créer divers environnements 3D et accélérer la recherche sur les agents. Cette direction de recherche n'en est qu'à ses débuts et nous sommes impatients de continuer à améliorer les capacités de génération de monde de Genie en termes de généralité et de cohérence.Comme pour la LMSI, les recherches de Deepmind visent à mettre au point des systèmes et des agents d'IA plus généraux, capables de comprendre et d'exécuter en toute sécurité un large éventail de tâches d'une manière qui soit utile aux personnes en ligne et dans le monde réel.Pensez-vous que ce nouveau modèle de Deepmind est crédible ou pertinent ?Quel est votre avis sur le sujet ?