Les progrès dans les grands modèles de langage (LLM) semblent ralentir. Les écarts de performances entre les derniers LLM du marché sont à peine remarquables malgré les sommes colossales englouties dans leur développement. Alors les entreprises commencent à se tourner vers une nouvelle une technologie dite « modèle de monde ». Les modèles de monde visent à naviguer dans le monde physique en apprenant à partir de vidéos et de données robotiques. Ils seraient à même d'acquérir une intelligence pratique et de mieux comprendre les environnements humains. Les entreprises pensent que les modèles de monde pourraient conduire à la superintelligence.Le PDG de Google, Sundar Pichai, a prévenu en décembre 2024 que le développement de l'IA va commencer à ralentir. « Je pense que les progrès vont devenir plus difficiles, les fruits à portée de main ont disparu », a déclaré Sundar Pichai lors de l'événement The New York Times Dealbook. Les progrès en matière de performances ont considérablement ralenti depuis, suggérant que le développement de grands modèles de langage a atteint un plafond.
Bien que certains acteurs du secteur, à l'instar du PDG de Nvidia, Jensen Huang, rejettent l'idée selon laquelle l'IA générative se heurte à un mur, le reste de l'industrie est déjà la recherche de la clé du prochain grand bond en avant de l'IA. La solution pourrait résider dans ce qu'ils appellent « modèles de monde ».
L’émergence des modèles de monde : la clé de l'avenir de l'IA ?
Les « modèles de monde » sont conçus pour comprendre et simuler la réalité au-delà du texte. Ils s’appuient sur des données visuelles, physiques et interactives pour prédire comment un environnement évolue, comment des objets se déplacent ou comment des agents interagissent. Selon les experts du secteur, cela ouvre la voie à des applications dans la robotique, les véhicules autonomes, les jeux vidéo ou encore la simulation scientifique.
La clé est de permettre aux IA d'apprendre de leur environnement et d'en représenter fidèlement une version abstraite dans leur « tête », comme le font les humains et les animaux. Pour ce faire, les développeurs doivent entraîner les IA à l'aide de simulations du monde. C'est un peu comme apprendre à conduire en jouant à « Gran Turismo » ou apprendre à voler avec « Microsoft Flight Simulator ». Ces modèles du monde comprennent tout ce qui est nécessaire pour planifier, agir et faire des prévisions sur l'avenir, y compris la physique et le temps.
Les pionniers de l'IA s'accordent presque tous à dire que les modèles de monde sont essentiels à la création de l'IA de nouvelle génération. Beaucoup affirment qu'ils seront indispensables pour créer un jour une « intelligence artificielle générale » (AGI) supérieure à celle des humains. Fei-Fei Li, professeure à l'université de Stanford et « marraine » de l'IA, a levé 230 millions de dollars pour lancer la startup World Labs, spécialisée dans les modèles de monde.
L'approche du modèle de monde a déjà des répercussions potentiellement considérables sur le monde réel. La guerre des drones, les nouveaux types de robots et les véhicules autonomes plus sûrs que les humains en tirent tous parti, explique Moritz Baier-Lentz, associé et investisseur chez Lightspeed, une société de capital-risque.
Les initiatives basées sur les modèles de monde se multiplient
L'intérêt pour une approche alternative aux LLM est devenu visible depuis que plusieurs groupes spécialisés dans l'IA ont dévoilé une série d'avancées dans le domaine des modèles de monde au cours des derniers mois. Google DeepMind et Meta font partie des entreprises qui tentent de gagner du terrain dans la course à l'IA en développant des systèmes visant à naviguer dans le monde physique en apprenant à partir de vidéos et de données robotiques plutôt que simplement à partir du langage.
En août 2025, Google DeepMind a présenté Genie 3, un modèle de monde qui génère des vidéos image par image et prend en compte les interactions passées. Auparavant, les modèles de génération de vidéo créaient généralement la vidéo entière en une seule fois, plutôt qu’étape par étape.
« L'IA reste très limitée au domaine numérique. En créant des environnements qui ressemblent au monde réel ou se comportent comme lui, nous pouvons disposer de moyens beaucoup plus évolutifs pour former l'IA... sans les conséquences réelles d'une erreur dans le monde réel », a déclaré Shlomi Fruchter, co-responsable de Genie 3 chez Google DeepMind. D'autres initiatives s'observent également dans les autres entreprises de la course à l'IA :
- ...
La fin de cet article est réservée aux abonnés. Soutenez le Club Developpez.com en prenant un abonnement pour que nous puissions continuer à vous proposer des publications.