Le modèle Gemini 2.5 Computer Use de Google est disponible en aperçu via l'API Gemini, pour alimenter des agents IA capables d'interagir avec les interfaces utilisateur grâce aux capacités de Gemini 2.5 Pro

Le 8 octobre 2025 à 10:59, par Anthony

158PARTAGES

Le modèle Gemini 2.5 Computer Use de Google est disponible en preview via l'API Gemini, pour alimenter des agents IA capables d'interagir avec les interfaces utilisateur grâce aux capacités de Gemini 2.5 Pro

Google a présenté le modèle Gemini 2.5 Computer Use, un nouveau système d'intelligence artificielle (IA) disponible en avant-première via l'API Gemini qui permet aux agents d'interagir directement avec les interfaces utilisateur. S'appuyant sur les capacités de raisonnement visuel de Gemini 2.5 Pro, ce modèle surpasse les systèmes concurrents en matière de performances sur le Web et les appareils mobiles tout en conservant une latence réduite. Gemini 2.5 Computer Use est désormais accessible via Google AI Studio et Vertex AI.

Gemini (anciennement Bard), également connu sous le nom de Google Gemini, est un chatbot d'IA générative développé par Google AI. Basé sur le grand modèle linguistique (LLM) du même nom, il a été lancé en février 2024. Son prédécesseur, Bard, a été lancé en mars 2023 en réponse à l'essor de ChatGPT d'OpenAI et était basé sur les LLM LaMDA et PaLM.

Au début de l'année, Google a annoncé qu'elle allait mettre à la disposition des développeurs des fonctionnalités d'utilisation informatique via l'API Gemini. Ce 7 octobre 2025, l'entreprise a lancé le modèle Gemini 2.5 Computer Use, son nouveau modèle spécialisé basé sur les capacités de compréhension visuelle et de raisonnement de Gemini 2.5 Pro, qui permet aux agents d'interagir avec les interfaces utilisateur (UI). Il surpasse les principales alternatives sur plusieurs benchmarks de contrôle web et mobile, le tout avec une latence réduite. Les développeurs peuvent accéder à ces capacités via l'API Gemini dans Google AI Studio et Vertex AI.

Cette initiative survient peu après le lancement de Gemini 2.5 Pro par Google DeepMind, son dernier modèle d'IA destiné à la résolution de problèmes complexes, qui serait meilleur sur plusieurs critères de référence en matière de raisonnement et de codage.

Si les modèles d'IA peuvent interagir avec des logiciels via des API structurées, de nombreuses tâches numériques nécessitent encore une interaction directe avec des interfaces utilisateur graphiques, par exemple pour remplir et envoyer des formulaires. Pour accomplir ces tâches, les agents doivent naviguer sur les pages Web et dans les applications comme le font les humains : en cliquant, en tapant et en faisant défiler. La capacité à remplir des formulaires de manière native, à manipuler des éléments interactifs tels que des menus déroulants et des filtres, et à fonctionner derrière des identifiants de connexion est une étape cruciale dans la création d'agents puissants et polyvalents.

Comment fonctionne le modèle ?

Les fonctionnalités principales du modèle sont exposées via le nouvel outil « computer_use » dans l'API Gemini et doivent être utilisées dans une boucle. Les données d'entrée de l'outil sont la requête de l'utilisateur, une capture d'écran de l'environnement et l'historique des actions récentes. Les données d'entrée peuvent également spécifier s'il faut exclure certaines fonctions de la liste complète des actions UI prises en charge ou spécifier des fonctions personnalisées supplémentaires à inclure.

Le modèle analyse ensuite ces entrées et génère une réponse, généralement un appel de fonction représentant l'une des actions de l'interface utilisateur, telles que cliquer ou taper. Cette réponse peut également contenir une demande de confirmation de l'utilisateur final, qui est nécessaire pour certaines actions telles que la réalisation d'un achat. Le code côté client exécute ensuite l'action reçue.

Une fois l'action exécutée, une nouvelle capture d'écran de l'interface graphique et l'URL actuelle sont renvoyées au modèle Computer Use sous forme de réponse de fonction, relançant ainsi la boucle. Ce processus itératif se poursuit jusqu'à ce que la tâche soit terminée, qu'une erreur se produise ou que l'interaction soit interrompue par une réponse de sécurité ou une décision de l'utilisateur.

Le modèle Gemini 2.5 Computer Use est principalement optimisé pour les navigateurs Web, mais se révèle également très prometteur pour les tâches de contrôle de l'interface utilisateur mobile. Il n'est pas encore optimisé pour le contrôle au niveau du système d'exploitation de bureau.

Démonstrations

Ci-dessous sont présentées quelques démonstrations pour voir le modèle en action (ici à une vitesse 3 fois supérieure).

Prompt : « À partir de https://tinyurl.com/pet-care-signup, récupère toutes les informations concernant les animaux domestiques résidant en Californie et ajoute-les en tant qu'invités dans mon CRM spa à l'adresse https://pet-luxe-spa.web.app/. Ensuite, prends rendez-vous pour une visite de suivi avec la spécialiste Anima Lavar le 10 octobre, à tout moment après 8 h. La raison de la visite est la même que celle du traitement demandé. »

Prompt : « Mon club d'art a réfléchi aux tâches à accomplir avant notre exposition. Le tableau est chaotique et j'ai besoin de ton aide pour organiser les tâches dans les catégories que j'ai créées. Rends-toi sur sticky-note-jam.web.app et assure-toi que les notes sont bien classées dans les bonnes sections. Si ce n'est pas le cas, déplace-les. »

Performances

Le modèle Gemini 2.5 Computer Use affiche d'excellentes performances dans plusieurs tests de référence sur le Web et les appareils mobiles. Le tableau ci-dessous présente les résultats issus des chiffres déclarés par les utilisateurs, des évaluations réalisées par Browserbase et des propres évaluations de Google. Sauf indication contraire, les scores indiqués concernent les outils informatiques exposés via l'API.

Le modèle offre une qualité optimale pour le contrôle du navigateur avec une latence minimale, telle que mesurée par les performances sur le harnais Browserbase pour Online-Mind2Web.

L'approche de Google en matière de sécurité

Selon Google, la seule façon de créer des agents qui profitent à tous est d'adopter une attitude responsable dès le départ. Les agents IA qui contrôlent les ordinateurs présentent des risques particuliers, notamment l'utilisation abusive intentionnelle par les utilisateurs, les comportements imprévisibles des modèles, les injections de prompt et les escroqueries dans l'environnement Web. Il est donc essentiel de mettre en place des mesures de sécurité avec le plus grand soin.

Google a intégré des fonctionnalités de sécurité directement dans le modèle afin de répondre à ces trois risques majeurs.

De plus, Google fournit également aux développeurs des contrôles de sécurité qui leur permettent d'empêcher le modèle d'effectuer automatiquement des actions potentiellement risquées ou nuisibles. Parmi ces actions, on peut citer la compromission de l'intégrité d'un système, la compromission de la sécurité, le contournement des CAPTCHA ou le contrôle d'appareils médicaux. Voici ces contrôles :

Service de sécurité par étape : service de sécurité hors modèle, au moment de l'inférence, qui évalue chaque action proposée par le modèle avant son exécution.
Instructions système : les développeurs peuvent préciser davantage que l'agent refuse ou demande la confirmation de l'utilisateur avant d'entreprendre certains types d'actions à haut risque.

Des recommandations supplémentaires destinées aux développeurs concernant les mesures de sécurité et les meilleures pratiques sont disponibles dans la documentation.

Comment les premiers testeurs ont utilisé le modèle ?

Les équipes de Google ont déjà déployé le modèle en production pour des cas d'utilisation tels que les tests d'interface utilisateur, ce qui peut accélérer considérablement le développement de logiciels. Des versions de ce modèle ont également été utilisées pour alimenter le projet Mariner, l'agent de test Firebase et certaines fonctionnalités agentiques du mode IA dans Search.

Les utilisateurs du programme d'accès anticipé de Google ont également testé le modèle pour alimenter des assistants personnels, automatiser des flux de travail et tester des interfaces utilisateur, et ont obtenu d'excellents résultats.

« Bon nombre de nos flux de travail nécessitent d'interagir avec des interfaces destinées aux humains, où la vitesse est particulièrement importante. Gemini 2.5 Computer Use devance largement la concurrence, étant souvent 50 % plus rapide et plus performant que les meilleures solutions que nous avons envisagées. » - Poke.com, un assistant IA proactif dans iMessage, WhatsApp et SMS avec plusieurs flux de travail tiers et agentiques.

« Nos agents fonctionnent de manière totalement autonome et effectuent des tâches pour lesquelles la moindre erreur dans la collecte et l'analyse des données est inacceptable. Gemini 2.5 Computer Use a surpassé les autres modèles en matière d'analyse fiable du contexte dans des cas complexes, augmentant les performances jusqu'à 18 % lors de nos évaluations les plus difficiles. » — Autotab, un agent IA prêt à l'emploi.

« Lorsque les scripts conventionnels rencontrent des échecs, le modèle évalue l'état actuel de l'écran et détermine de manière autonome les actions nécessaires pour terminer le flux de travail. Cette implémentation permet désormais de réhabiliter avec succès plus de 60 % des exécutions (ce qui prenait auparavant plusieurs jours à corriger). » — L'équipe de la plateforme de paiement de Google, qui a mis en œuvre le modèle Computer Use comme mécanisme d'urgence pour remédier à la fragilité des tests d'interface utilisateur de bout en bout, qui contribuaient à 25 % de tous les échecs de test.

Alors que Google continue d'améliorer les capacités de Gemini, les commentaires des utilisateurs soulignent souvent ses lacunes. Google Gemini est notamment critiquée pour ses faibles performances en codage, allant même jusqu'à se qualifier de « honte pour son espèce ». Cette situation illustre les doutes plus généraux quant aux performances réelles de la technologie.

Gemini 2.5 Computer Use est disponible à l'essai dans l'environnement de démonstration hébergé par Browserbase.

Source : Google

Et vous ?

Quel est votre avis sur le sujet ?

Trouvez-vous cette initiative de Google crédible ou pertinente ?

Voir aussi :

Google publie des versions mises à jour de ses modèles d'IA Gemini 2.5 Flash et 2.5 Flash-Lite, avec un meilleur suivi des instructions complexes et des capacités multimodales renforcées

Google a annoncé une importante expansion de sa gamme de modèles d'IA Gemini et dévoile Gemini 2.5 Flash-Lite, un modèle hautement efficace, tout en rendant 2.5 Flash et 2.5 Pro disponibles pour tous

Google dévoile les limites d'utilisation de l'IA Gemini : Les utilisateurs gratuits ont droit à 50 messages quotidiens et 10 opérations d'image, tandis que les plans premium offrent jusqu'à 2 000 messages

Vous avez lu gratuitement 15 070 articles depuis plus d'un an.
Soutenez le club developpez.com en souscrivant un abonnement pour que nous puissions continuer à vous proposer des publications.

Une erreur dans cette actualité ? Signalez-nous-la !

Votre nom : Votre e-mail :

Décrivez l'erreur que vous souhaitez porter à notre connaissance :

Identifiez-vous

Créer un compte

Le modèle Gemini 2.5 Computer Use de Google est disponible en aperçu via l'API Gemini, pour alimenter des agents IA capables d'interagir avec les interfaces utilisateur grâce aux capacités de Gemini 2.5 Pro

Identifiant
Mot de passe

Mot de passe oublié ?