
Le PDG de Google, Sundar Pichai, a prévenu en décembre 2024 que le développement de l'IA va commencer à ralentir. « Je pense que les progrès vont devenir plus difficiles, les fruits à portée de main ont disparu », a déclaré Sundar Pichai lors de l'événement The New York Times Dealbook. Les progrès en matière de performances ont considérablement ralenti depuis, suggérant que le développement de grands modèles de langage a atteint un plafond.
Bien que certains acteurs du secteur, à l'instar du PDG de Nvidia, Jensen Huang, rejettent l'idée selon laquelle l'IA générative se heurte à un mur, le reste de l'industrie est déjà la recherche de la clé du prochain grand bond en avant de l'IA. La solution pourrait résider dans ce qu'ils appellent « modèles de monde ».
L’émergence des modèles de monde : la clé de l'avenir de l'IA ?
Les « modèles de monde » sont conçus pour comprendre et simuler la réalité au-delà du texte. Ils s’appuient sur des données visuelles, physiques et interactives pour prédire comment un environnement évolue, comment des objets se déplacent ou comment des agents interagissent. Selon les experts du secteur, cela ouvre la voie à des applications dans la robotique, les véhicules autonomes, les jeux vidéo ou encore la simulation scientifique.
La clé est de permettre aux IA d'apprendre de leur environnement et d'en représenter fidèlement une version abstraite dans leur « tête », comme le font les humains et les animaux. Pour ce faire, les développeurs doivent entraîner les IA à l'aide de simulations du monde. C'est un peu comme apprendre à conduire en jouant à « Gran Turismo » ou apprendre à voler avec « Microsoft Flight Simulator ». Ces modèles du monde comprennent tout ce qui est nécessaire pour planifier, agir et faire des prévisions sur l'avenir, y compris la physique et le temps.
Les pionniers de l'IA s'accordent presque tous à dire que les modèles de monde sont essentiels à la création de l'IA de nouvelle génération. Beaucoup affirment qu'ils seront indispensables pour créer un jour une « intelligence artificielle générale » (AGI) supérieure à celle des humains. Fei-Fei Li, professeure à l'université de Stanford et « marraine » de l'IA, a levé 230 millions de dollars pour lancer la startup World Labs, spécialisée dans les modèles de monde.
L'approche du modèle de monde a déjà des répercussions potentiellement considérables sur le monde réel. La guerre des drones, les nouveaux types de robots et les véhicules autonomes plus sûrs que les humains en tirent tous parti, explique Moritz Baier-Lentz, associé et investisseur chez Lightspeed, une société de capital-risque.
Les initiatives basées sur les modèles de monde se multiplient
L'intérêt pour une approche alternative aux LLM est devenu visible depuis que plusieurs groupes spécialisés dans l'IA ont dévoilé une série d'avancées dans le domaine des modèles de monde au cours des derniers mois. Google DeepMind et Meta font partie des entreprises qui tentent de gagner du terrain dans la course à l'IA en développant des systèmes visant à naviguer dans le monde physique en apprenant à partir de vidéos et de données robotiques plutôt que simplement à partir du langage.
En août 2025, Google DeepMind a présenté Genie 3, un modèle de monde qui génère des vidéos image par image et prend en compte les interactions passées. Auparavant, les modèles de génération de vidéo créaient généralement la vidéo entière en une seule fois, plutôt qu’étape par étape.
« L'IA reste très limitée au domaine numérique. En créant des environnements qui ressemblent au monde réel ou se comportent comme lui, nous pouvons disposer de moyens beaucoup plus évolutifs pour former l'IA... sans les conséquences réelles d'une erreur dans le monde réel », a déclaré Shlomi Fruchter, co-responsable de Genie 3 chez Google DeepMind. D'autres initiatives s'observent également dans les autres entreprises de la course à l'IA :
- Meta : l'entreprise de Mark Zuckerberg tente de reproduire la manière dont les enfants apprennent passivement en observant le monde qui les entoure, en entraînant ses modèles V-JEPA sur du contenu vidéo brut. Son laboratoire FAIR (Fundamental Artificial Intelligence Research), axé sur des projets d'IA à plus long terme, a publié en juin 2025 la deuxième version du modèle, qu'il teste actuellement sur des robots ;
- Runway : cette startup spécialisée dans la génération de vidéo a lancé en août 2025 un produit qui utilise des modèles de monde pour créer des décors de jeux, avec des histoires et des personnages personnalisés générés en temps réel. Runway a conclu des accords avec des studios hollywoodiens, dont Lionsgate ;
- Niantic : basée à San Francisco, la société Niantic a accumulé des données sur 10 millions de lieux grâce à ses jeux populaires, notamment Pokémon Go, qui attire 30 millions de joueurs chaque mois. Même après avoir vendu Pokémon Go à Scopely, Niantic continue de recevoir des scans anonymisés de monuments publics de la part de la communauté du jeu, alimentant ainsi ses initiatives de modélisation du monde. John Hanke, PDG de la société récemment rebaptisée Niantic Spatial, a souligné le « bon départ » de l'entreprise sur cette question ;
- Nvidia : Nvidia fait progresser la technologie des modèles de monde grâce à sa plateforme Omniverse, conçue pour créer et exécuter des simulations réalistes. L'entreprise considère cette technologie comme la pierre angulaire de l'« IA physique », un terme utilisé par le PDG Jensen Huang pour décrire la prochaine phase de croissance qui alimentera la robotique et d'autres applications concrètes.
Les défis clés à relever et les perspectives de l'industrie de l'IA
Yann LeCun, considéré comme l'un des « parrains » de l'IA moderne, est l'un des plus fervents défenseurs de l'architecture des modèles de monde. Yann LeCun est un chercheur français en intelligence artificielle et vision artificielle. Lauréat du prestigieux prix Turing en 2019, Yann LeCun est le scientifique en chef du laboratoire Fair de Meta. Il avertit depuis longtemps que les LLM ne parviendront jamais à raisonner et à planifier comme les humains.
Mais des défis restent à relever. La construction des modèles de monde demande d’énormes volumes de données vidéo et de simulation. Ces données sont coûteuses à collecter et traiter. L'entraînement de ces modèles exige une puissance de calcul encore plus importante que pour les LLM. De plus, il reste difficile de mesurer la véritable compréhension d’un modèle du monde réel, car les tests en simulation ne reflètent pas toujours les performances en conditions concrètes.
Le champ d'application potentiel de cette technologie de pointe est vaste. Les modèles de monde ouvrent la possibilité de servir toutes ces autres industries et d'amplifier ce que les ordinateurs ont fait pour le travail intellectuel. Yann LeCun et d'autres partisans de ces modèles affirment que cette vision d'une nouvelle génération de systèmes d'IA dotant les machines d'une intelligence équivalente à celle des humains pourrait prendre 10 ans à se concrétiser.
Implications pour l'AGI et au-delà
La poussée vers l'AGI est évidente dans la manière dont Genie 3 fait le pont entre la simulation et les applications dans le monde réel. Selon les dirigeants de Google DeepMind, la maîtrise de modèles de monde comme celui-ci pourrait permettre à l'IA de raisonner sur les causes et les effets, une lacune...
La fin de cet article est réservée aux abonnés. Soutenez le Club Developpez.com en prenant un abonnement pour que nous puissions continuer à vous proposer des publications.