Genie 3 de Google DeepMind est un "modèle de monde" avancé basé sur l'IA qui génère des simulations 3D interactives en temps réel à partir de textes ou d'images, fonctionnant à 24 images par seconde en 720p avec une physique cohérente. Entraîné sur de vastes ensembles de données, il permet de créer des environnements dynamiques pour l'exploration et la manipulation. Cette avancée révolutionne la robotique, la réalité virtuelle et l'éducation, et constitue un pas en avant vers l'IA générale.Google DeepMind ou simplement DeepMind est un laboratoire de recherche britannique-américain spécialisé dans l'intelligence artificielle (IA), filiale d'Alphabet Inc. Fondé au Royaume-Uni en 2010, il a été racheté par Google en 2014 et a fusionné avec la division Google Brain de Google AI pour devenir Google DeepMind en avril 2023. Google DeepMind est responsable du développement de Gemini (la famille de grands modèles de langage de Google) et d'autres outils d'IA générative, tels que le modèle de conversion de texte en image Imagen et le modèle de conversion de texte en vidéo Veo.
En décembre 2024, Google DeepMind a dévoilé Genie 2, un modèle d'IA capable de créer des mondes 3D jouables à partir d'une simple invite. Genie 2 serait une avancée significative en termes d'échelle. De plus, Genie 2 pourrait créer des environnements riches et variés pour les agents d'intelligence artificielle (IA), et leur permettre d'y agir. DeepMind pense que Genie 2 est la voie à suivre pour résoudre un problème structurel de formation d'agents incarnés en toute sécurité, tout en atteignant l'ampleur et la généralité requises pour progresser vers l'AGI.
Dans le cadre d'une avancée significative pour la recherche en IA, Google DeepMind a dévoilé Genie 3, un "modèle de monde" sophistiqué capable de générer des simulations interactives en temps réel à partir de simples invites textuelles ou d'images. Cette avancée permet à l'IA de créer des environnements 3D dynamiques que les utilisateurs peuvent explorer et manipuler instantanément, à une vitesse de 24 images par seconde en résolution 720p. Contrairement aux moteurs de jeux traditionnels qui nécessitent une programmation intensive, Genie 3 construit ces mondes à la volée, en maintenant une physique et une logique cohérentes pendant plusieurs minutes.
La capacité du système à produire des scénarios variés, allant des rues animées des villes aux paysages fantastiques, découle de son apprentissage à partir de vastes ensembles de données vidéo et d'interactions, ce qui lui permet de prédire et de simuler des comportements du monde réel. Genie 3 représente une amélioration notable par rapport à ses prédécesseurs, Genie 1 et 2, en intégrant des entrées multimodales et en générant des environnements qui réagissent en temps réel aux actions des utilisateurs, comme la navigation d'un personnage dans une forêt générée ou la modification des conditions météorologiques en cours de simulation.
Genie 3 : Vers la simulation du monde
Les chercheurs de DeepMind soulignent que Genie 3 n'est pas seulement un outil génératif, mais une étape fondamentale vers des systèmes d'IA plus avancés. Entraîné sur des milliards de paramètres, le modèle utilise une architecture basée sur un transformateur pour anticiper les changements environnementaux, un peu comme les grands modèles de langage prédisent le texte. Cela permet des comportements émergents, où l'IA déduit des règles tacites, telles que la gravité ou les interactions entre objets, sans codage explicite.
Les experts du secteur soulignent le potentiel de Genie 3 à révolutionner des domaines tels que la robotique et la réalité virtuelle. Par exemple, les robots pourraient s'entraîner dans des entrepôts simulés générés par le modèle, apprenant à naviguer dans des scénarios imprévisibles avant leur déploiement dans le monde réel. Google considère cela comme une étape clé vers l'intelligence artificielle générale (AGI), où les machines atteignent une compréhension du monde physique similaire à celle des humains.
L'un des aspects les plus intrigants est la réactivité de Genie 3 : les utilisateurs peuvent saisir des descriptions telles que "un château médiéval assiégé" et voir l'IA rendre une scène entièrement interactive, avec des éléments mobiles et des récits évolutifs. Cette capacité s'étend à l'édition de simulations existantes, permettant des améliorations telles que l'ajout de personnages ou la modification de l'éclairage, tout en préservant la cohérence.
Google DeepMind souligne comment le modèle a été présenté en avant-première à certains chercheurs, suscitant des discussions sur son évolutivité. Les premiers tests montrent qu'il est capable de gérer des interactions complexes, telles que la dynamique des fluides dans un océan généré ou les comportements de foule en milieu urbain, même si les exigences en matière de calcul restent élevées, nécessitant...
La fin de cet article est réservée aux abonnés. Soutenez le Club Developpez.com en prenant un abonnement pour que nous puissions continuer à vous proposer des publications.