IdentifiantMot de passe
Loading...
Mot de passe oublié ?Je m'inscris ! (gratuit)

Vous êtes nouveau sur Developpez.com ? Créez votre compte ou connectez-vous afin de pouvoir participer !

Vous devez avoir un compte Developpez.com et être connecté pour pouvoir participer aux discussions.

Vous n'avez pas encore de compte Developpez.com ? Créez-en un en quelques instants, c'est entièrement gratuit !

Si vous disposez déjà d'un compte et qu'il est bien activé, connectez-vous à l'aide du formulaire ci-dessous.

Identifiez-vous
Identifiant
Mot de passe
Mot de passe oublié ?
Créer un compte

L'inscription est gratuite et ne vous prendra que quelques instants !

Je m'inscris !

Google DeepMind a dévoilé Genie 3, un "modèle de monde" d'IA avancé qui génère des simulations 3D interactives en temps réel à partir de texte ou d'images, avec une physique cohérente

Le , par Jade Emy

108PARTAGES

6  0 
Genie 3 de Google DeepMind est un "modèle de monde" avancé basé sur l'IA qui génère des simulations 3D interactives en temps réel à partir de textes ou d'images, fonctionnant à 24 images par seconde en 720p avec une physique cohérente. Entraîné sur de vastes ensembles de données, il permet de créer des environnements dynamiques pour l'exploration et la manipulation. Cette avancée révolutionne la robotique, la réalité virtuelle et l'éducation, et constitue un pas en avant vers l'IA générale.

Google DeepMind ou simplement DeepMind est un laboratoire de recherche britannique-américain spécialisé dans l'intelligence artificielle (IA), filiale d'Alphabet Inc. Fondé au Royaume-Uni en 2010, il a été racheté par Google en 2014 et a fusionné avec la division Google Brain de Google AI pour devenir Google DeepMind en avril 2023. Google DeepMind est responsable du développement de Gemini (la famille de grands modèles de langage de Google) et d'autres outils d'IA générative, tels que le modèle de conversion de texte en image Imagen et le modèle de conversion de texte en vidéo Veo.

En décembre 2024, Google DeepMind a dévoilé Genie 2, un modèle d'IA capable de créer des mondes 3D jouables à partir d'une simple invite. Genie 2 serait une avancée significative en termes d'échelle. De plus, Genie 2 pourrait créer des environnements riches et variés pour les agents d'intelligence artificielle (IA), et leur permettre d'y agir. DeepMind pense que Genie 2 est la voie à suivre pour résoudre un problème structurel de formation d'agents incarnés en toute sécurité, tout en atteignant l'ampleur et la généralité requises pour progresser vers l'AGI.

Dans le cadre d'une avancée significative pour la recherche en IA, Google DeepMind a dévoilé Genie 3, un "modèle de monde" sophistiqué capable de générer des simulations interactives en temps réel à partir de simples invites textuelles ou d'images. Cette avancée permet à l'IA de créer des environnements 3D dynamiques que les utilisateurs peuvent explorer et manipuler instantanément, à une vitesse de 24 images par seconde en résolution 720p. Contrairement aux moteurs de jeux traditionnels qui nécessitent une programmation intensive, Genie 3 construit ces mondes à la volée, en maintenant une physique et une logique cohérentes pendant plusieurs minutes.

La capacité du système à produire des scénarios variés, allant des rues animées des villes aux paysages fantastiques, découle de son apprentissage à partir de vastes ensembles de données vidéo et d'interactions, ce qui lui permet de prédire et de simuler des comportements du monde réel. Genie 3 représente une amélioration notable par rapport à ses prédécesseurs, Genie 1 et 2, en intégrant des entrées multimodales et en générant des environnements qui réagissent en temps réel aux actions des utilisateurs, comme la navigation d'un personnage dans une forêt générée ou la modification des conditions météorologiques en cours de simulation.


Genie 3 : Vers la simulation du monde

Les chercheurs de DeepMind soulignent que Genie 3 n'est pas seulement un outil génératif, mais une étape fondamentale vers des systèmes d'IA plus avancés. Entraîné sur des milliards de paramètres, le modèle utilise une architecture basée sur un transformateur pour anticiper les changements environnementaux, un peu comme les grands modèles de langage prédisent le texte. Cela permet des comportements émergents, où l'IA déduit des règles tacites, telles que la gravité ou les interactions entre objets, sans codage explicite.

Les experts du secteur soulignent le potentiel de Genie 3 à révolutionner des domaines tels que la robotique et la réalité virtuelle. Par exemple, les robots pourraient s'entraîner dans des entrepôts simulés générés par le modèle, apprenant à naviguer dans des scénarios imprévisibles avant leur déploiement dans le monde réel. Google considère cela comme une étape clé vers l'intelligence artificielle générale (AGI), où les machines atteignent une compréhension du monde physique similaire à celle des humains.

L'un des aspects les plus intrigants est la réactivité de Genie 3 : les utilisateurs peuvent saisir des descriptions telles que "un château médiéval assiégé" et voir l'IA rendre une scène entièrement interactive, avec des éléments mobiles et des récits évolutifs. Cette capacité s'étend à l'édition de simulations existantes, permettant des améliorations telles que l'ajout de personnages ou la modification de l'éclairage, tout en préservant la cohérence.

Google DeepMind souligne comment le modèle a été présenté en avant-première à certains chercheurs, suscitant des discussions sur son évolutivité. Les premiers tests montrent qu'il est capable de gérer des interactions complexes, telles que la dynamique des fluides dans un océan généré ou les comportements de foule en milieu urbain, même si les exigences en matière de calcul restent élevées, nécessitant...
La fin de cet article est réservée aux abonnés. Soutenez le Club Developpez.com en prenant un abonnement pour que nous puissions continuer à vous proposer des publications.

Une erreur dans cette actualité ? Signalez-nous-la !

Avatar de Matthieu Vergne
Expert éminent https://www.developpez.com
Le 03/10/2025 à 22:39
Pour ce qui est de la représentation, il est effectivement important de "pouvoir représenter de tout". Pas stocker, mais représenter de manière abstraite, et même s'il faut sélectionner les infos pertinentes, il faut pouvoir le faire sur l'ensemble des capteurs à disposition.

Mais au delà de la représentation de l'environnement, il est important que l'agent y inclue aussi une représentation de lui-même (d'une manière ou d'une autre), sans quoi il ne peut pas optimiser sa manière d'interagir avec l'environnement sur la base de ses propres spécificités.

Enfin, la représentation est une chose, mais le calcul en est une autre. Les LLMs sont moyens car statistiques. Si un modèle de monde est juste une extension d'un modèl multicanaux, on ne règle pas le problème de la statistique. Pas dit que l'optimisation du calcul (je pense notamment à la réflexion mathématique) passe par la seule représentation du monde (environnement + agent). Il faudrait non seulement une représentation de choses imaginaires (qui ne s'assimilent pas directement aux données reçues des capteurs), notamment de modèles de raisonnements, et un moyen d'exécuter de tels modèles.
0  0 
Avatar de _toma_
Membre éclairé https://www.developpez.com
Le 07/10/2025 à 21:04
Les entreprises pensent que les modèles de monde pourraient conduire à la superintelligence.
Le retour du jet d'AI .

C'est qui les entreprises ?
0  0