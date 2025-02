Microsoft Research présente Magma, un modèle de fondation IA intégré qui combine le traitement de la vision et du langage pour contrôler les interfaces logicielles et les systèmes robotiques

Un pas vers l'IA agentique

Plus qu'un modèle de perception

Envoyé par Microsoft Envoyé par

Nous présentons Magma, un modèle de base pour les tâches multimodales de l'IA agentique dans les mondes numérique et physique. Magma est une extension significative des modèles vision-langage (VL) dans la mesure où le premier conserve non seulement la capacité de compréhension VL (intelligence verbale) du second, mais est également doté de la capacité de planifier et d'agir dans le monde visuel-spatial (intelligence spatiale) et de mener à bien des tâches agentiques allant de la navigation dans l'interface utilisateur à la manipulation de robots.



Magma est pré-entraîné sur de grandes quantités d'ensembles de données VL hétérogènes comprenant des images, des vidéos et des données robotiques, où les objets visuels actionnables (par exemple, les boutons cliquables dans une interface graphique) dans les images sont étiquetés par Set-of-Mark (SoM) et les mouvements d'objets (par exemple, la trace d'un bras robotique) dans les vidéos sont étiquetés par Trace-of-Mark (ToM). Des expériences approfondies montrent que SoM et ToM facilitent l'acquisition de l'intelligence spatiale à partir de données d'entraînement à grande échelle.



Magma produit de nouveaux résultats de pointe sur les tâches de navigation dans l'interface utilisateur et de manipulation robotique, surpassant les modèles antérieurs spécifiquement adaptés à ces tâches. En ce qui concerne les tâches VL, Magma se compare favorablement aux modèles VL populaires qui sont entraînés sur des ensembles de données beaucoup plus importants.





Soutenez le club developpez.com en Vous avez lu gratuitement 155 articles depuis plus d'un an.Soutenez le club developpez.com en souscrivant un abonnement pour que nous puissions continuer à vous proposer des publications.

Microsoft affirme que Magma est le premier modèle d'IA qui non seulement traite des données multimodales, telles que du texte, des images et des vidéos, mais qui peut également agir directement sur ces données. Et ce, qu'il s'agisse de naviguer dans une interface utilisateur ou de manipuler des objets physiques. Le projet est le fruit d'une collaboration entre des chercheurs de Microsoft, du KAIST, de l'université du Maryland, de l'université du Wisconsin-Madison et de l'université de Washington.Il y a déjà eu des projets similaires de robotique pilotée par l'IA. Prenons par exemple les projets PALM-E et RT-2 de Google ou ChatGPT for Robotics de Microsoft. Ces projets utilisaient de grands modèles de langage (LLM) comme interfaces. Mais contrairement à de nombreux systèmes d'IA multimodaux antérieurs, qui nécessitent des modèles distincts pour la perception et le contrôle, Magma intègre ces capacités dans un modèle de base unique.Microsoft positionne Magma comme une étape vers l'IA agentique. Il s'agit d'un système qui élabore des plans de manière autonome et peut effectuer des tâches complexes pour le compte d'un humain, au lieu de se contenter de répondre à des questions sur ce qu'il voit. Microsoft écrit dans son rapport de recherche que Magma peut formuler des plans et effectuer des actions. Si l'utilisateur décrit un objectif, Magma est capable de l'atteindre.Microsoft n'est pas le seul à s'intéresser à l'IA agentique. OpenAI expérimente des agents d'IA dans le cadre de projets tels que Operator, une application capable d'exécuter des tâches d'interface utilisateur dans un navigateur Web. Google explore également l'IA agentique avec plusieurs projets agentiques, dont Gemini 2.0.Magma s'appuie sur la technologie LLM basée sur les transformateurs, qui consiste à introduire des données d'entraînement dans un réseau neuronal. Il diffère toutefois des modèles linguistiques traditionnels tels que le GPT-4V. Au lieu de se concentrer uniquement sur l'intelligence verbale, Magma ajoute également l'intelligence spatiale.En s'entraînant avec un mélange d'images, de vidéos, de données robotiques et d'interactions avec l'interface utilisateur, Microsoft affirme que Magma est un agent véritablement multimodal et pas seulement un modèle perceptuel.Une brève présentation du modèle d'IA Magma est fournie ci-dessous :Quel est votre avis sur le sujet ?Trouvez-vous que cette initiative de Microsoft est pertinente ou cohérente ?Avez-vous déjà utilisé un outil similaire pour votre usage ou le développement d'applications, et si oui, qu'en pensez-vous ?