
Microsoft Research présente Magma, un modèle de fondation d'intelligence artificielle (IA) intégré qui combine le traitement visuel et linguistique pour contrôler les interfaces logicielles et les systèmes robotiques. Il s'agit d'une avancée majeure pour une IA multimodale polyvalente, capable de fonctionner de manière interactive dans les mondes physique et numérique.
Microsoft affirme que Magma est le premier modèle d'IA qui non seulement traite des données multimodales, telles que du texte, des images et des vidéos, mais qui peut également agir directement sur ces données. Et ce, qu'il s'agisse de naviguer dans une interface utilisateur ou de manipuler des objets physiques. Le projet est le fruit d'une collaboration entre des chercheurs de Microsoft, du KAIST, de l'université du Maryland, de l'université du Wisconsin-Madison et de l'université de Washington.
Il y a déjà eu des projets similaires de robotique pilotée par l'IA. Prenons par exemple les projets PALM-E et RT-2 de Google ou ChatGPT for Robotics de Microsoft. Ces projets utilisaient de grands modèles de langage (LLM) comme interfaces. Mais contrairement à de nombreux systèmes d'IA multimodaux antérieurs, qui nécessitent des modèles distincts pour la perception et le contrôle, Magma intègre ces capacités dans un modèle de base unique.
Un pas vers l'IA agentique
Microsoft positionne Magma comme une étape vers l'IA agentique. Il s'agit d'un système qui élabore des plans de manière autonome et peut effectuer des tâches complexes pour le compte d'un humain, au lieu de se contenter de répondre à des questions sur ce qu'il voit. Microsoft écrit dans son rapport de recherche que Magma peut formuler des plans et effectuer des actions. Si l'utilisateur décrit un objectif, Magma est capable de l'atteindre.
Microsoft n'est pas le seul à s'intéresser à l'IA agentique. OpenAI expérimente des agents d'IA dans le cadre de projets tels que Operator, une application capable d'exécuter des tâches d'interface utilisateur dans un navigateur Web. Google explore également l'IA agentique avec plusieurs projets agentiques, dont Gemini 2.0.
Plus qu'un modèle de perception
Magma s'appuie sur la technologie LLM basée sur les transformateurs, qui consiste à introduire des données d'entraînement dans un réseau neuronal. Il diffère toutefois des modèles linguistiques traditionnels tels que le GPT-4V. Au lieu de se concentrer uniquement sur l'intelligence verbale, Magma ajoute également l'intelligence spatiale.
En s'entraînant avec un mélange d'images, de vidéos, de données robotiques et d'interactions avec l'interface utilisateur, Microsoft affirme que Magma est un agent véritablement multimodal et pas seulement un modèle perceptuel.
Une brève présentation du modèle d'IA Magma est fournie ci-dessous :

Et vous ?



Voir aussi :



Vous avez lu gratuitement 4 articles depuis plus d'un an.
Soutenez le club developpez.com en souscrivant un abonnement pour que nous puissions continuer à vous proposer des publications.
Soutenez le club developpez.com en souscrivant un abonnement pour que nous puissions continuer à vous proposer des publications.