IdentifiantMot de passe
Loading...
Mot de passe oublié ?Je m'inscris ! (gratuit)

Vous êtes nouveau sur Developpez.com ? Créez votre compte ou connectez-vous afin de pouvoir participer !

Vous devez avoir un compte Developpez.com et être connecté pour pouvoir participer aux discussions.

Vous n'avez pas encore de compte Developpez.com ? Créez-en un en quelques instants, c'est entièrement gratuit !

Si vous disposez déjà d'un compte et qu'il est bien activé, connectez-vous à l'aide du formulaire ci-dessous.

Identifiez-vous
Identifiant
Mot de passe
Mot de passe oublié ?
Créer un compte

L'inscription est gratuite et ne vous prendra que quelques instants !

Je m'inscris !

Microsoft Research présente Magma, un modèle de fondation IA intégré qui combine le traitement de la vision et du langage pour contrôler les interfaces logicielles et les systèmes robotiques

Le , par Anthony

5PARTAGES

5  0 
Microsoft Research présente Magma, un modèle de fondation IA intégré qui combine le traitement de la vision et du langage pour contrôler les interfaces logicielles et les systèmes robotiques

Microsoft Research présente Magma, un modèle de fondation d'intelligence artificielle (IA) intégré qui combine le traitement visuel et linguistique pour contrôler les interfaces logicielles et les systèmes robotiques. Il s'agit d'une avancée majeure pour une IA multimodale polyvalente, capable de fonctionner de manière interactive dans les mondes physique et numérique.

Microsoft affirme que Magma est le premier modèle d'IA qui non seulement traite des données multimodales, telles que du texte, des images et des vidéos, mais qui peut également agir directement sur ces données. Et ce, qu'il s'agisse de naviguer dans une interface utilisateur ou de manipuler des objets physiques. Le projet est le fruit d'une collaboration entre des chercheurs de Microsoft, du KAIST, de l'université du Maryland, de l'université du Wisconsin-Madison et de l'université de Washington.

Il y a déjà eu des projets similaires de robotique pilotée par l'IA. Prenons par exemple les projets PALM-E et RT-2 de Google ou ChatGPT for Robotics de Microsoft. Ces projets utilisaient de grands modèles de langage (LLM) comme interfaces. Mais contrairement à de nombreux systèmes d'IA multimodaux antérieurs, qui nécessitent des modèles distincts pour la perception et le contrôle, Magma intègre ces capacités dans un modèle de base unique.


Un pas vers l'IA agentique

Microsoft positionne Magma comme une étape vers l'IA agentique. Il s'agit d'un système qui élabore des plans de manière autonome et peut effectuer des tâches complexes pour le compte d'un humain, au lieu de se contenter de répondre à des questions sur ce qu'il voit. Microsoft écrit dans son rapport de recherche que Magma peut formuler des plans et effectuer des actions. Si l'utilisateur décrit un objectif, Magma est capable de l'atteindre.

Microsoft n'est pas le seul à s'intéresser à l'IA agentique. OpenAI expérimente des agents d'IA dans le cadre de projets tels que Operator, une application capable d'exécuter des tâches d'interface utilisateur dans un navigateur Web. Google explore également l'IA agentique avec plusieurs projets agentiques, dont Gemini 2.0.

Plus qu'un modèle de perception

Magma s'appuie sur la technologie LLM basée sur les transformateurs, qui consiste à introduire des données d'entraînement dans un réseau neuronal. Il diffère toutefois des modèles linguistiques traditionnels tels que le GPT-4V. Au lieu de se concentrer uniquement sur l'intelligence verbale, Magma ajoute également l'intelligence spatiale.

En s'entraînant avec un mélange d'images, de vidéos, de données robotiques et d'interactions avec l'interface utilisateur, Microsoft affirme que Magma est un agent véritablement multimodal et pas seulement un modèle perceptuel.

Une brève présentation du modèle d'IA Magma est fournie ci-dessous :

Citation Envoyé par Microsoft

Nous présentons Magma, un modèle de base pour les tâches multimodales de l'IA agentique dans les mondes numérique et physique. Magma est une extension significative des modèles vision-langage (VL) dans la mesure où le premier conserve non seulement la capacité de compréhension VL (intelligence verbale) du second, mais est également doté de la capacité de planifier et d'agir dans le monde visuel-spatial (intelligence spatiale) et de mener à bien des tâches agentiques allant de la navigation dans l'interface utilisateur à la manipulation de robots.

Magma est pré-entraîné sur de grandes quantités d'ensembles de données VL hétérogènes comprenant des images, des vidéos et des données robotiques, où les objets visuels actionnables (par exemple, les boutons cliquables dans une interface graphique) dans les images sont étiquetés par Set-of-Mark (SoM) et les mouvements d'objets (par exemple, la trace d'un bras robotique) dans les vidéos sont étiquetés par Trace-of-Mark (ToM). Des expériences approfondies montrent que SoM et ToM facilitent l'acquisition de l'intelligence spatiale à partir de données d'entraînement à grande échelle.

Magma produit de nouveaux résultats de pointe sur les tâches de navigation dans l'interface utilisateur et de manipulation robotique, surpassant les modèles antérieurs spécifiquement adaptés à ces tâches. En ce qui concerne les tâches VL, Magma se compare favorablement aux modèles VL populaires qui sont entraînés sur des ensembles de données beaucoup plus importants.
Source : Microsoft Research

Et vous ?

Quel est votre avis sur le sujet ?
Trouvez-vous que cette initiative de Microsoft est pertinente ou cohérente ?
Avez-vous déjà utilisé un outil similaire pour votre usage ou le développement d'applications, et si oui, qu'en pensez-vous ?

Voir aussi :

77 % des responsables informatiques prévoient d'investir dans l'IA agentique cette année, car l'IA agentique a le potentiel de combler le fossé en combinant les agents d'IA, l'automatisation et les personnes

L'IA agentique expliquée : Un cadre philosophique pour comprendre les agents d'IA, par David Barkol

Les leaders de l'industrie technologique restent réticents à adopter les agents d'IA malgré la pression des fournisseurs, selon une enquête réalisée par le Wall Street Journal CIO Network Summit
Vous avez lu gratuitement 4 articles depuis plus d'un an.
Soutenez le club developpez.com en souscrivant un abonnement pour que nous puissions continuer à vous proposer des publications.

Une erreur dans cette actualité ? Signalez-nous-la !