IdentifiantMot de passe
Loading...
Mot de passe oublié ?Je m'inscris ! (gratuit)

Vous êtes nouveau sur Developpez.com ? Créez votre compte ou connectez-vous afin de pouvoir participer !

Vous devez avoir un compte Developpez.com et être connecté pour pouvoir participer aux discussions.

Vous n'avez pas encore de compte Developpez.com ? Créez-en un en quelques instants, c'est entièrement gratuit !

Si vous disposez déjà d'un compte et qu'il est bien activé, connectez-vous à l'aide du formulaire ci-dessous.

Identifiez-vous
Identifiant
Mot de passe
Mot de passe oublié ?
Créer un compte

L'inscription est gratuite et ne vous prendra que quelques instants !

Je m'inscris !

OpenAI lance un agent d'IA qui contrôle les navigateurs pour effectuer des tâches en plusieurs étapes, notamment des achats en ligne, la création de présentations PowerPoint et de feuilles de calcul

Le , par Anthony

33PARTAGES

5  0 
OpenAI a lancé l'agent ChatGPT, un outil d'IA capable d'effectuer des tâches en plusieurs étapes, notamment des achats en ligne, la création de présentations PowerPoint et la génération de feuilles de calcul. L'agent combine les capacités de deux services OpenAI existants : Operator, qui peut naviguer et interagir avec des sites web à la manière d'un humain, et Deep Research, qui gère des tâches complexes de recherche en ligne.

Ce lancement fait suite à l'annonce par OpenAI de l'agent ChatGPT de recherche approfondie, alimenté par son dernier modèle de pointe, o3. Selon l'entreprise, Deep Research serait capable d'accomplir en quelques dizaines de minutes ce qui prendrait des heures à un être humain et marquerait « une étape importante vers notre objectif plus large de développement de l'AGI ».

Le nouvel agent ChatGPT fonctionne sur un nouveau modèle d'IA développé spécifiquement pour les capacités de l'agent et peut effectuer des tâches telles que la planification de repas et la commande d'ingrédients en ligne, la réservation de restaurants et la création de diapositives basées sur l'analyse de la concurrence. Lors de démonstrations, l'agent a réussi à rechercher sur Etsy des lampes vintage de moins de 200 dollars avec livraison gratuite et à ajouter automatiquement les articles au panier.

L'agent ChatGPT est disponible dès à présent pour les abonnés Pro, Plus et Team, et les utilisateurs Enterprise et Education y auront accès dans le courant de l'été. L'outil requiert l'autorisation de l'utilisateur avant d'effectuer des achats ou des actions « irréversibles » telles que l'envoi d'e-mails. L'entreprise a toutefois précisé que l'agent « est loin d'être parfait » et qu'il peut prendre plusieurs minutes pour effectuer des tâches.

https://youtu.be/1jn_RpbPbEc

Présentation de l’agent ChatGPT : faire le lien entre recherche et action

Selon OpenAI, ChatGPT peut désormais travailler pour vous à l'aide de son propre ordinateur virtuel, et gérer des tâches complexes du début à la fin en opérant une évolution fluide entre raisonnement et action.

L'agent ChatGPT allie la capacité d'Operator à interagir avec les sites web, la puissance de la recherche approfondie en matière de synthèse d'informations web et les compétences conversationnelles de ChatGPT au sein d'un système agentique unifié. Cela signifie qu'il est désormais possible de matérialiser les idées et questions par des actions concrètes, qu'il s'agisse de mener des recherches financières approfondies, de remplir des formulaires en ligne ou de créer des présentations soignées. En suivant vos instructions, ChatGPT se charge donc du travail à la place de l'utilisateur afin d'accélérer sa production, tout en lui libérant du temps pour se consacrer à d'autres aspects de son quotidien.

OpenAI indique que l'on peut demander à ChatGPT de gérer des requêtes telles que « regarder dans mon calendrier et m’avertir des rendez-vous avec des clients en fonction des dernières actualités » ou « analyser trois concurrents et créer un diaporama ». L'outil naviguera alors intelligemment sur les sites Web, sélectionnera les dates, filtrera les résultats, invitera l'utilisateur à se connecter en toute sécurité, exécutera du code et fournira même des résultats polis et modifiables, tels que des diaporamas et des feuilles de calcul, afin de résumer ses conclusions.


L'entreprise note que l'utilisateur garde le contrôle tout au long du processus. « ChatGPT demande votre autorisation avant d'effectuer des actions importantes, et vous pouvez facilement l'interrompre, prendre le contrôle du navigateur ou arrêter les tâches à tout moment. »

Bien que l'agent ChatGPT soit déjà un outil puissant pour traiter efficacement des tâches complexes, le lancement de l'outil ne représente que le début de l'intégration directe des capacités agentiques dans ChatGPT, selon OpenAI. « Au fil du temps, nous prévoyons d'apporter régulièrement des améliorations significatives et d’optimiser l’utilité de l'agent ChatGPT pour un plus grand nombre de personnes », déclare l'entreprise

Une évolution naturelle d’Operator et de la recherche approfondie

OpenAI indique que l’agent ChatGPT est la continuité naturelle de deux avancées significatives qui se sont produites plus tôt cette année : Operator, un agent de prévisualisation de recherche capable d'interagir directement avec des sites web à l'aide d'un navigateur distant, et l'outil de recherche approfondie, basé sur le raisonnement web à plusieurs étapes.

Selon l'entreprise d'IA, chaque outil présentait auparavant des avantages uniques : Operator pouvait faire défiler, cliquer et taper sur le Web, tandis que la recherche approfondie excellait dans l'analyse et la synthèse des informations. Mais leur fonctionnement était optimal dans des situations différentes : Operator n’était pas capable d’approfondir l'analyse ni de rédiger des rapports détaillés, et la recherche approfondie ne pouvait pas interagir avec les sites Web pour affiner les résultats ou accéder à du contenu nécessitant une authentification utilisateur. OpenAI note que de nombreuses requêtes effectuées par les utilisateurs avec Operator convenaient mieux à une recherche approfondie. Elle a donc combiné le meilleur des deux approches.

En intégrant ces forces complémentaires et en introduisant des outils supplémentaires dans ChatGPT, OpenAI débloqué des capacités entièrement nouvelles au sein d'un seul modèle. L'agent ChatGPT peut désormais interagir activement avec les sites web : cliquer, filtrer et recueillir des résultats plus précis et plus efficaces. L'utilisateur peut également passer naturellement d'une simple conversation à une demande d'action depuis le même chat.


Un agent qui travaille pour l'utilisateur, à ses côtés

OpenAI a équipé l'agent ChatGPT de tous les outils web à sa disposition : un navigateur visuel qui interagit avec le web via une interface utilisateur graphique, un navigateur textuel pour les requêtes web plus simples basées sur le raisonnement, et un accès direct à l'API. En offrant à ChatGPT ces différentes possibilités d'accès et d'interaction avec les informations disponibles sur le Web, l'entreprise indique que l'outil peut choisir la voie optimale pour accomplir ses tâches le plus efficacement possible. « Par exemple, il est à même de récupérer rapidement des données financières ou des résultats sportifs via des API, tout en étant capable d'interagir visuellement avec des sites web conçus principalement pour les humains. »

Selon l'entreprise, tout cela est rendu possible grâce à l'ordinateur de ChatGPT, où le contexte pertinent est partagé durant toute la durée de la tâche, quelle que soit la combinaison d'outils utilisée. « Le modèle est spécialement entraîné pour identifier et exploiter les outils les plus efficaces pour chaque tâche à chaque étape, en évaluant ses résultats plutôt qu'en s'en tenant à une méthode fixe », déclare la société.

En d'autres termes, le modèle apprend de manière dynamique tout en exécutant des tâches, optimisant ainsi son approche en termes de rapidité, de précision et d'efficacité.


D'après OpenAI, l'agent ChatGPT est conçu pour des flux de travail itératifs et collaboratifs, bien plus interactifs et flexibles que les modèles précédents. « Lorsque ChatGPT fonctionne, vous pouvez l'interrompre à tout moment pour clarifier les instructions, rediriger la tâche ou l’orienter vers les résultats souhaités. Il reprendra là où il s'était arrêté, avec les nouvelles informations, sans toutefois perdre les progrès réalisés précédemment. De même, ChatGPT vous demande de manière proactive des informations supplémentaires lorsque cela est nécessaire afin de s'assurer que la tâche reste en adéquation avec vos objectifs. Si une tâche prend plus de temps que prévu ou si elle semble bloquée, vous pouvez la mettre en pause, demander un résumé de la progression ou l'interrompre complètement et recevoir des résultats partiels. »

L'agent peut également utiliser les connecteurs ChatGPT pour accéder en toute sécurité aux informations les plus pertinentes, et permettre à un utilisateur de se connecter en prenant le contrôle du navigateur, afin d'approfondir et d'élargir ses recherches parallèlement à l'exécution des tâches. Grâce à ces capacités, ChatGPT peut véritablement travailler aux côtés de l'utilisateur, en choisissant de manière proactive les actions à entreprendre à mesure qu'il rencontre les différentes informations et étapes dans la tâche.

Evaluations

Selon OpenAI, les capacités avancées du modèle se reflètent dans ses performances de pointe (SOTA) lors d'évaluations académiques mesurant les capacités de navigation sur le Web et d'exécution de tâches dans le monde réel.

Lors du dernier examen de l’humanité, une évaluation qui mesure les performances de l’IA sur un large éventail de sujets et sur des questions de niveau expert, le modèle qui alimente l’agent ChatGPT auraut battu un nouveau record en atteignant le score de 43,1.


OpenAI a également évalué le modèle sur diverses tâches réelles reflétant celles que les analystes seraient amenés à effectuer. Sur DSBench⁠, conçu pour évaluer les agents à l'aide de tâches réalistes en science des données, allant de l'analyse à la modélisation, l'agent ChatGPT a surpassé largement le modèle de pointe précédent et a notamment dépassé de manière significative les performances humaines dans les tâches d'analyse de données.


Sur SpreadsheetBench, qui évalue les modèles sur leur capacité à modifier des feuilles de calcul issues de scénarios réels, l'agent ChatGPT a établi une nouvelle référence en matière de technologie de pointe (SOTA), doublant largement les performances de GPT‑4o, l'actuelle référence SOTA. Selon l'entreprise, lorsqu'il a été autorisé à modifier directement des feuilles de calcul, l'agent ChatGPT a obtenu un score encore meilleur, avec 45,5 %, comparable à celui de Copilot dans Excel (20,0 %).


Sur un benchmark interne qui mesure la capacité d'un modèle à assumer les tâches d'un analyste en banque d'investissement de la première à la troisième année, telles que la création d'un modèle financier à trois états financiers pour une entreprise du Fortune 500 avec une mise en forme et des citations appropriées, ou la construction d'un modèle de rachat par endettement en vue d’une privatisation, le modèle qui alimente l'agent ChatGPT aurait surpassé largement Deep Research et o3. L'entreprise indique que chaque tâche est notée selon des centaines de critères liés à l'exactitude et à l'utilisation des formules.


Par ailleurs, sur WebArena⁠, un benchmark conçu pour évaluer les performances des agents de navigation web dans l'exécution de tâches web dans le monde réel, ce modèle aurait amélioré le CUA optimisé par o3 (le modèle qui alimente Operator).


Enfin, OpenAI a évalué l’agent ChatGPT sur BrowseComp⁠, un benchmark que l'entreprise a publié plus tôt cette année et qui mesure la capacité des agents de navigation à localiser des informations difficiles à trouver sur le web. Le modèle aurait alors établi un nouveau record avec 68,9, soit 17 points de pourcentage de plus que la recherche approfondie.


Élargir l'utilité dans le monde réel

Selon OpenAI, ces capacités agentiques unifiées améliorent considérablement l'utilité de ChatGPT dans les contextes quotidiens et professionnels actuels. « Au travail, vous pouvez automatiser des tâches répétitives, telles que la conversion de captures d'écran ou de tableaux de bord en présentations composées d'éléments vectoriels modifiables, la réorganisation de réunions, la planification et la réservation de séminaires, et la mise à jour de feuilles de calcul avec de nouvelles données financières tout en conservant la même mise en forme. Dans votre vie personnelle, vous pouvez l'utiliser pour planifier et réserver sans effort des itinéraires de voyage, organiser et réserver des dîners, ou trouver des spécialistes et prendre des rendez-vous », déclare l'entreprise.


Mode d’emploi

Les nouvelles fonctionnalités agentiques de ChatGPT peuvent être activées directement à partir du menu déroulant des outils du compositeur en sélectionnant « mode agent » à tout moment dans n'importe quelle conversation. L'utilisateur n'aura alors qu'à décrire simplement la tâche qu'il souhaite accomplir, qu'il s'agisse d'effectuer des recherches approfondies, de créer un diaporama ou de soumettre des dépenses. Au fur et à mesure que l'outil effectue la tâche, une narration à l'écran montre exactement ce que fait ChatGPT. L'utilisateur a alors la possibilité d'interrompre et de prendre le contrôle du navigateur à tout moment, pour de s'assurer que les tâches restent en adéquation avec ses objectifs.

De plus, l'utilisateur peut programmer la répétition automatique des tâches terminées, comme la génération d'un rapport hebdomadaire sur les indicateurs de performance chaque lundi matin.

Contrôle utilisateur et sécurité

Cette version marque la première fois que les utilisateurs peuvent demander à ChatGPT d'effectuer des actions sur le Web. Dès le début, OpenAI indique avoir donné la priorité à la sécurité comme partie intégrante du système, en développant les contrôles robustes issus de l’aperçu de recherche d'Operator et en ajoutant des mesures de protection supplémentaires pour faire face à de nouveaux risques tels que l'élargissement de la portée des utilisateurs et l'accès aux terminaux.

Selon OpenAI, le premier domaine d'atténuation des risques concerne la prévention des erreurs de modèle coûteuses, d'autant plus que celui-ci peut désormais effectuer des tâches qui ont un impact sur le monde réel :

  • Confirmation explicite de l'utilisateur : ChatGPT demande explicitement l'autorisation de l'utilisateur avant d'effectuer des actions sensibles ou ayant un impact, telles que soumettre des formulaires, effectuer des réservations, réaliser des achats ou interagir avec des sites web impliquant la divulgation de données personnelles.
  • Surveillance active (« Mode Observation ») : Certaines tâches critiques, telles que la rédaction et l'envoi d'e-mails ou l'utilisation d'applications sensibles, nécessitent la supervision active et l'approbation de l'utilisateur à chaque étape.
  • Atténuation proactive des risques : ChatGPT refuse activement les tâches à haut risque telles que les transactions financières ou les interactions juridiques sensibles.

Depuis le lancement du projet, OpenAI indique avoir mis l'accent sur la protection de l'agent ChatGPT contre les manipulations malveillantes et les utilisations abusives, domaines que l'entreprise a identifiés comme présentant des risques particulièrement critiques pour les systèmes agentiques :

[LIST][*] Défense contre les attaques adversaires (injection rapide) : OpenAI a soigneusement formé et testé l'agent afin qu'il soit capable d'identifier et de résister aux tentatives de manipulation de son comportement par des tiers au moyen d'instructions malveillantes. L'entreprise utilise une surveillance continue pour détecter et répondre rapidement aux attaques par injection, et a formé le modèle à suivre une hiérarchie des instructions⁠ stricte, en donnant la priorité aux...[/*]
La fin de cet article est réservée aux abonnés. Soutenez le Club Developpez.com en prenant un abonnement pour que nous puissions continuer à vous proposer des publications.

Une erreur dans cette actualité ? Signalez-nous-la !