
Les progrès dans les grands modèles de langage (LLM) semblent ralentir. Les écarts de performances entre les derniers LLM du marché sont à peine remarquables malgré les sommes colossales englouties dans leur développement. Alors les entreprises commencent à se tourner vers une nouvelle une technologie dite « modèle de monde ». Les modèles de monde visent à naviguer dans le monde physique en apprenant à partir de vidéos et de données robotiques. Ils seraient à même d'acquérir une intelligence pratique et de mieux comprendre les environnements humains. Les entreprises pensent que les modèles de monde pourraient conduire à la superintelligence.
Le PDG de Google, Sundar Pichai, a prévenu en décembre 2024 que le développement de l'IA va commencer à ralentir. « Je pense que les progrès vont devenir plus difficiles, les fruits à portée de main ont disparu », a déclaré Sundar Pichai lors de l'événement The New York Times Dealbook. Les progrès en matière de performances ont considérablement ralenti depuis, suggérant que le développement de grands modèles de langage a atteint un plafond.
Bien que certains acteurs du secteur, à l'instar du PDG de Nvidia, Jensen Huang, rejettent l'idée selon laquelle l'IA générative se heurte à un mur, le reste de l'industrie est déjà la recherche de la clé du prochain grand bond en avant de l'IA. La solution pourrait résider dans ce qu'ils appellent « modèles de monde ».
L’émergence des modèles de monde : la clé de l'avenir de l'IA ?
Les « modèles de monde » sont conçus pour comprendre et simuler la réalité au-delà du texte. Ils s’appuient sur des données visuelles, physiques et interactives pour prédire comment un environnement évolue, comment des objets se déplacent ou comment des agents interagissent. Selon les experts du secteur, cela ouvre la voie à des applications dans la robotique, les véhicules autonomes, les jeux vidéo ou encore la simulation scientifique.
La clé est de permettre aux IA d'apprendre de leur environnement et d'en représenter fidèlement une version abstraite dans leur « tête », comme le font les humains et les animaux. Pour ce faire, les développeurs doivent entraîner les IA à l'aide de simulations du monde. C'est un peu comme apprendre à conduire en jouant à « Gran Turismo » ou apprendre à voler avec « Microsoft Flight Simulator ». Ces modèles du monde comprennent tout ce qui est nécessaire pour planifier, agir et faire des prévisions sur l'avenir, y compris la physique et le temps.
Les pionniers de l'IA s'accordent presque tous à dire que les modèles de monde sont essentiels à la création de l'IA de nouvelle génération. Beaucoup affirment qu'ils seront indispensables pour créer un jour une « intelligence artificielle générale » (AGI) supérieure à celle des humains. Fei-Fei Li, professeure à l'université de Stanford et « marraine » de l'IA, a levé 230 millions de dollars pour lancer la startup World Labs, spécialisée dans les modèles de monde.
L'approche du modèle de monde a déjà des répercussions potentiellement considérables sur le monde réel. La guerre des drones, les nouveaux types de robots et les véhicules autonomes plus sûrs que les humains en tirent tous parti, explique Moritz Baier-Lentz, associé et investisseur chez Lightspeed, une société de capital-risque.
Les initiatives basées sur les modèles de monde se multiplient
L'intérêt pour une approche alternative aux LLM est devenu visible depuis que plusieurs groupes spécialisés dans l'IA ont dévoilé une série d'avancées dans le domaine des modèles de monde au cours des derniers mois. Google DeepMind et Meta font partie des entreprises qui tentent de gagner du terrain dans la course à l'IA en développant des systèmes visant à naviguer dans le monde physique en apprenant à partir de vidéos et de données robotiques plutôt que simplement à partir du langage.
En août 2025, Google DeepMind a présenté Genie 3, un modèle de monde qui génère des vidéos image par image et prend en compte les interactions passées. Auparavant, les modèles de génération de vidéo créaient généralement la vidéo entière en une seule fois, plutôt qu’étape par étape.
« L'IA reste très limitée au domaine numérique. En créant des environnements qui ressemblent au monde réel ou se comportent comme lui, nous pouvons disposer de moyens beaucoup plus évolutifs pour former l'IA... sans les conséquences réelles d'une erreur dans le monde réel », a déclaré Shlomi Fruchter, co-responsable de Genie 3 chez Google DeepMind. D'autres initiatives s'observent également dans les autres entreprises de la course à l'IA :
- Meta : l'entreprise de Mark Zuckerberg tente de reproduire la manière dont les enfants apprennent passivement en observant le monde qui les entoure, en entraînant ses modèles V-JEPA sur du contenu vidéo brut. Son laboratoire FAIR (Fundamental Artificial Intelligence Research), axé sur des projets d'IA à plus long terme, a publié en juin 2025 la deuxième version du modèle, qu'il teste actuellement sur des robots ;
- Runway : cette startup spécialisée dans la génération de vidéo a lancé en août 2025 un produit qui utilise des modèles de monde pour créer des décors de jeux, avec des histoires et des personnages personnalisés générés en temps réel. Runway a conclu des accords avec des studios hollywoodiens, dont Lionsgate ;
- Niantic : basée à San Francisco, la société Niantic a accumulé des données sur 10 millions de lieux grâce à ses jeux populaires, notamment Pokémon Go, qui attire 30 millions de joueurs chaque mois. Même après avoir vendu Pokémon Go à Scopely, Niantic continue de recevoir des scans anonymisés de monuments publics de la part de la communauté du jeu, alimentant ainsi ses initiatives de modélisation du monde. John Hanke, PDG de la société récemment rebaptisée Niantic Spatial, a souligné le « bon départ » de l'entreprise sur cette question ;
- Nvidia : Nvidia fait progresser la technologie des modèles de monde grâce à sa plateforme Omniverse, conçue pour créer et exécuter des simulations réalistes. L'entreprise considère cette technologie comme la pierre angulaire de l'« IA physique », un terme utilisé par le PDG Jensen Huang pour décrire la prochaine phase de croissance qui alimentera la robotique et d'autres applications concrètes.
Les défis clés à relever et les perspectives de l'industrie de l'IA
Yann LeCun, considéré comme l'un des « parrains » de l'IA moderne, est l'un des plus fervents défenseurs de l'architecture des modèles de monde. Yann LeCun est un chercheur français en intelligence artificielle et vision artificielle. Lauréat du prestigieux prix Turing en 2019, Yann LeCun est le scientifique en chef du laboratoire Fair de Meta. Il avertit depuis longtemps que les LLM ne parviendront jamais à raisonner et à planifier comme les humains.
Mais des défis restent à relever. La construction des modèles de monde demande d’énormes volumes de données vidéo et de simulation. Ces données sont coûteuses à collecter et traiter. L'entraînement de ces modèles exige une puissance de calcul encore plus importante que pour les LLM. De plus, il reste difficile de mesurer la véritable compréhension d’un modèle du monde réel, car les tests en simulation ne reflètent pas toujours les performances en conditions concrètes.
Le champ d'application potentiel de cette technologie de pointe est vaste. Les modèles de monde ouvrent la possibilité de servir toutes ces autres industries et d'amplifier ce que les ordinateurs ont fait pour le travail intellectuel. Yann LeCun et d'autres partisans de ces modèles affirment que cette vision d'une nouvelle génération de systèmes d'IA dotant les machines d'une intelligence équivalente à celle des humains pourrait prendre 10 ans à se concrétiser.
Implications pour l'AGI et au-delà
La poussée vers l'AGI est évidente dans la manière dont Genie 3 fait le pont entre la simulation et les applications dans le monde réel. Selon les dirigeants de Google DeepMind, la maîtrise de modèles de monde comme celui-ci pourrait permettre à l'IA de raisonner sur les causes et les effets, une lacune fondamentale des systèmes actuels. Cela pourrait accélérer les développements dans le domaine des véhicules autonomes ou des simulations médicales, où des tests itératifs et sûrs sont essentiels.
Cependant, des défis persistent, notamment des préoccupations éthiques liées à l'utilisation abusive dans la création de réalités virtuelles trompeuses ou aux biais hérités des données d'entraînement. Bien que Genie 3 soit actuellement limité à un accès à des fins de recherche, sa commercialisation pourrait bouleverser les secteurs des jeux et de l'éducation, permettant potentiellement aux enseignants de créer des cours d'histoire immersifs en quelques secondes.
Les comparaisons avec les modèles précédents révèlent des progrès rapides : Genie 2 se concentrait sur les générations 2D, mais Genie 3 passe à la 3D avec une cohérence temporelle. Cette évolution souligne l'investissement de DeepMind dans l'IA fondamentale, soutenu par les ressources de Google, ce qui le place devant des concurrents comme OpenAI dans le domaine des technologies de simulation.
En fin de compte, Genie 3 marque un tournant où l'IA ne se contente pas de générer du contenu, mais simule des mondes entiers avec une capacité d'action. Pour les initiés du secteur, cela ouvre la voie à des systèmes hybrides combinant des modèles de monde et l'apprentissage par renforcement, ce qui pourrait transformer la façon dont nous concevons et interagissons avec les environnements numériques. À mesure que la technologie mûrit, son intégration dans les outils quotidiens pourrait redéfinir la créativité et la résolution de problèmes dans tous les secteurs.
Conclusion
Les géants de l’IA réorientent une partie de leurs efforts vers les modèles de monde pour dépasser les limites actuelles des LLM. Cette approche vise à donner aux systèmes une compréhension plus riche et multimodale du monde, avec des applications potentielles dans de nombreux secteurs. Ces modèles pourraient créer de nouvelles opportunités pour l'éducation et la formation, en aidant les étudiants à apprendre et les experts à acquérir de l'expérience.
Mais des obstacles techniques et économiques subsistent, tant sur le plan technique que sur le plan économique. Leur construction exige des volumes massifs de données visuelles et simulées, dont la collecte et le traitement représentent un coût énorme. À cela s’ajoute la puissance de calcul colossale nécessaire à leur entraînement, ainsi que la difficulté d’évaluer leur véritable compréhension du monde réel au-delà des environnements simulés.
Et vous ?



Voir aussi



Vous avez lu gratuitement 356 articles depuis plus d'un an.
Soutenez le club developpez.com en souscrivant un abonnement pour que nous puissions continuer à vous proposer des publications.
Soutenez le club developpez.com en souscrivant un abonnement pour que nous puissions continuer à vous proposer des publications.