IdentifiantMot de passe
Loading...
Mot de passe oublié ?Je m'inscris ! (gratuit)

Vous êtes nouveau sur Developpez.com ? Créez votre compte ou connectez-vous afin de pouvoir participer !

Vous devez avoir un compte Developpez.com et être connecté pour pouvoir participer aux discussions.

Vous n'avez pas encore de compte Developpez.com ? Créez-en un en quelques instants, c'est entièrement gratuit !

Si vous disposez déjà d'un compte et qu'il est bien activé, connectez-vous à l'aide du formulaire ci-dessous.

Identifiez-vous
Identifiant
Mot de passe
Mot de passe oublié ?
Créer un compte

L'inscription est gratuite et ne vous prendra que quelques instants !

Je m'inscris !

Le modèle Gemini 2.5 Computer Use de Google est disponible en aperçu via l'API Gemini, pour alimenter des agents IA capables d'interagir avec les interfaces utilisateur grâce aux capacités de Gemini 2.5 Pro

Le , par Anthony

150PARTAGES

6  0 
Google a présenté le modèle Gemini 2.5 Computer Use, un nouveau système d'intelligence artificielle (IA) disponible en avant-première via l'API Gemini qui permet aux agents d'interagir directement avec les interfaces utilisateur. S'appuyant sur les capacités de raisonnement visuel de Gemini 2.5 Pro, ce modèle surpasse les systèmes concurrents en matière de performances sur le Web et les appareils mobiles tout en conservant une latence réduite. Gemini 2.5 Computer Use est désormais accessible via Google AI Studio et Vertex AI.

Gemini (anciennement Bard), également connu sous le nom de Google Gemini, est un chatbot d'IA générative développé par Google AI. Basé sur le grand modèle linguistique (LLM) du même nom, il a été lancé en février 2024. Son prédécesseur, Bard, a été lancé en mars 2023 en réponse à l'essor de ChatGPT d'OpenAI et était basé sur les LLM LaMDA et PaLM.

Au début de l'année, Google a annoncé qu'elle allait mettre à la disposition des développeurs des fonctionnalités d'utilisation informatique via l'API Gemini. Ce 7 octobre 2025, l'entreprise a lancé le modèle Gemini 2.5 Computer Use, son nouveau modèle spécialisé basé sur les capacités de compréhension visuelle et de raisonnement de Gemini 2.5 Pro, qui permet aux agents d'interagir avec les interfaces utilisateur (UI). Il surpasse les principales alternatives sur plusieurs benchmarks de contrôle web et mobile, le tout avec une latence réduite. Les développeurs peuvent accéder à ces capacités via l'API Gemini dans Google AI Studio et Vertex AI.

Cette initiative survient peu après le lancement de Gemini 2.5 Pro par Google DeepMind, son dernier modèle d'IA destiné à la résolution de problèmes complexes, qui serait meilleur sur plusieurs critères de référence en matière de raisonnement et de codage.


Si les modèles d'IA peuvent interagir avec des logiciels via des API structurées, de nombreuses tâches numériques nécessitent encore une interaction directe avec des interfaces utilisateur graphiques, par exemple pour remplir et envoyer des formulaires. Pour accomplir ces tâches, les agents doivent naviguer sur les pages Web et dans les applications comme le font les humains : en cliquant, en tapant et en faisant défiler. La capacité à remplir des formulaires de manière native, à manipuler des éléments interactifs tels que des menus déroulants et des filtres, et à fonctionner derrière des identifiants de connexion est une étape cruciale dans la création d'agents puissants et polyvalents.

Comment fonctionne le modèle ?

Les fonctionnalités principales du modèle sont exposées via le nouvel outil « computer_use » dans l'API Gemini et doivent être utilisées dans une boucle. Les données d'entrée de l'outil sont la requête de l'utilisateur, une capture d'écran de l'environnement et l'historique des actions récentes. Les données d'entrée peuvent également spécifier s'il faut exclure certaines fonctions de la liste complète des actions UI prises en charge ou spécifier des fonctions personnalisées supplémentaires à inclure.


Le modèle analyse ensuite ces entrées et génère une réponse, généralement un appel de fonction représentant l'une des actions de l'interface utilisateur, telles que cliquer ou taper. Cette réponse peut également contenir une demande de confirmation de l'utilisateur final, qui est nécessaire pour certaines actions telles que la réalisation d'un achat. Le code côté client exécute ensuite l'action reçue.

Une fois l'action exécutée, une nouvelle capture d'écran de l'interface graphique et l'URL actuelle sont renvoyées au modèle Computer Use sous forme de réponse de fonction, relançant ainsi la boucle. Ce processus itératif se poursuit jusqu'à ce que la tâche soit terminée, qu'une erreur se produise ou que l'interaction soit interrompue par une réponse de sécurité ou une décision de l'utilisateur.

Le modèle Gemini 2.5 Computer Use est principalement optimisé pour les navigateurs Web, mais se révèle également très prometteur pour les tâches de contrôle de l'interface utilisateur mobile. Il n'est pas encore optimisé pour le contrôle au niveau du système d'exploitation de bureau.

Démonstrations

Ci-dessous sont présentées quelques démonstrations pour voir le modèle en action (ici à une vitesse 3 fois supérieure).

Prompt : « À partir de https://tinyurl.com/pet-care-signup, récupère toutes les informations concernant les animaux domestiques résidant en Californie et ajoute-les en tant qu'invités dans mon CRM spa à l'adresse https://pet-luxe-spa.web.app/. Ensuite, prends rendez-vous pour une visite de suivi avec la spécialiste...
La fin de cet article est réservée aux abonnés. Soutenez le Club Developpez.com en prenant un abonnement pour que nous puissions continuer à vous proposer des publications.

Une erreur dans cette actualité ? Signalez-nous-la !