OpenAI lance un agent d'IA qui contrôle les navigateurs pour effectuer des tâches en plusieurs étapes, notamment des achats en ligne, la création de présentations PowerPoint et de feuilles de calcul

Le 18 juillet 2025 à 14:24, par Anthony

10PARTAGES

OpenAI lance un agent d'intelligence artificielle qui contrôle les navigateurs afin de réaliser des tâches en plusieurs étapes, notamment des achats en ligne, la création de présentations PowerPoint et de feuilles de calcul.

OpenAI a lancé l'agent ChatGPT, un outil d'IA capable d'effectuer des tâches en plusieurs étapes, notamment des achats en ligne, la création de présentations PowerPoint et la génération de feuilles de calcul. L'agent combine les capacités de deux services OpenAI existants : Operator, qui peut naviguer et interagir avec des sites web à la manière d'un humain, et Deep Research, qui gère des tâches complexes de recherche en ligne.

Ce lancement fait suite à l'annonce par OpenAI de l'agent ChatGPT de recherche approfondie, alimenté par son dernier modèle de pointe, o3. Selon l'entreprise, Deep Research serait capable d'accomplir en quelques dizaines de minutes ce qui prendrait des heures à un être humain et marquerait « une étape importante vers notre objectif plus large de développement de l'AGI ».

Le nouvel agent ChatGPT fonctionne sur un nouveau modèle d'IA développé spécifiquement pour les capacités de l'agent et peut effectuer des tâches telles que la planification de repas et la commande d'ingrédients en ligne, la réservation de restaurants et la création de diapositives basées sur l'analyse de la concurrence. Lors de démonstrations, l'agent a réussi à rechercher sur Etsy des lampes vintage de moins de 200 dollars avec livraison gratuite et à ajouter automatiquement les articles au panier.

L'agent ChatGPT est disponible dès à présent pour les abonnés Pro, Plus et Team, et les utilisateurs Enterprise et Education y auront accès dans le courant de l'été. L'outil requiert l'autorisation de l'utilisateur avant d'effectuer des achats ou des actions « irréversibles » telles que l'envoi d'e-mails. L'entreprise a toutefois précisé que l'agent « est loin d'être parfait » et qu'il peut prendre plusieurs minutes pour effectuer des tâches.

Présentation de l’agent ChatGPT : faire le lien entre recherche et action

Selon OpenAI, ChatGPT peut désormais travailler pour vous à l'aide de son propre ordinateur virtuel, et gérer des tâches complexes du début à la fin en opérant une évolution fluide entre raisonnement et action.

L'agent ChatGPT allie la capacité d'Operator à interagir avec les sites web, la puissance de la recherche approfondie en matière de synthèse d'informations web et les compétences conversationnelles de ChatGPT au sein d'un système agentique unifié. Cela signifie qu'il est désormais possible de matérialiser les idées et questions par des actions concrètes, qu'il s'agisse de mener des recherches financières approfondies, de remplir des formulaires en ligne ou de créer des présentations soignées. En suivant vos instructions, ChatGPT se charge donc du travail à la place de l'utilisateur afin d'accélérer sa production, tout en lui libérant du temps pour se consacrer à d'autres aspects de son quotidien.

OpenAI indique que l'on peut demander à ChatGPT de gérer des requêtes telles que « regarder dans mon calendrier et m’avertir des rendez-vous avec des clients en fonction des dernières actualités » ou « analyser trois concurrents et créer un diaporama ». L'outil naviguera alors intelligemment sur les sites Web, sélectionnera les dates, filtrera les résultats, invitera l'utilisateur à se connecter en toute sécurité, exécutera du code et fournira même des résultats polis et modifiables, tels que des diaporamas et des feuilles de calcul, afin de résumer ses conclusions.

L'entreprise note que l'utilisateur garde le contrôle tout au long du processus. « ChatGPT demande votre autorisation avant d'effectuer des actions importantes, et vous pouvez facilement l'interrompre, prendre le contrôle du navigateur ou arrêter les tâches à tout moment. »

Bien que l'agent ChatGPT soit déjà un outil puissant pour traiter efficacement des tâches complexes, le lancement de l'outil ne représente que le début de l'intégration directe des capacités agentiques dans ChatGPT, selon OpenAI. « Au fil du temps, nous prévoyons d'apporter régulièrement des améliorations significatives et d’optimiser l’utilité de l'agent ChatGPT pour un plus grand nombre de personnes », déclare l'entreprise

Une évolution naturelle d’Operator et de la recherche approfondie

OpenAI indique que l’agent ChatGPT est la continuité naturelle de deux avancées significatives qui se sont produites plus tôt cette année : Operator, un agent de prévisualisation de recherche capable d'interagir directement avec des sites web à l'aide d'un navigateur distant, et l'outil de recherche approfondie, basé sur le raisonnement web à plusieurs étapes.

Selon l'entreprise d'IA, chaque outil présentait auparavant des avantages uniques : Operator pouvait faire défiler, cliquer et taper sur le Web, tandis que la recherche approfondie excellait dans l'analyse et la synthèse des informations. Mais leur fonctionnement était optimal dans des situations différentes : Operator n’était pas capable d’approfondir l'analyse ni de rédiger des rapports détaillés, et la recherche approfondie ne pouvait pas interagir avec les sites Web pour affiner les résultats ou accéder à du contenu nécessitant une authentification utilisateur. OpenAI note que de nombreuses requêtes effectuées par les utilisateurs avec Operator convenaient mieux à une recherche approfondie. Elle a donc combiné le meilleur des deux approches.

En intégrant ces forces complémentaires et en introduisant des outils supplémentaires dans ChatGPT, OpenAI débloqué des capacités entièrement nouvelles au sein d'un seul modèle. L'agent ChatGPT peut désormais interagir activement avec les sites web : cliquer, filtrer et recueillir des résultats plus précis et plus efficaces. L'utilisateur peut également passer naturellement d'une simple conversation à une demande d'action depuis le même chat.

Un agent qui travaille pour l'utilisateur, à ses côtés

OpenAI a équipé l'agent ChatGPT de tous les outils web à sa disposition : un navigateur visuel qui interagit avec le web via une interface utilisateur graphique, un navigateur textuel pour les requêtes web plus simples basées sur le raisonnement, et un accès direct à l'API. En offrant à ChatGPT ces différentes possibilités d'accès et d'interaction avec les informations disponibles sur le Web, l'entreprise indique que l'outil peut choisir la voie optimale pour accomplir ses tâches le plus efficacement possible. « Par exemple, il est à même de récupérer rapidement des données financières ou des résultats sportifs via des API, tout en étant capable d'interagir visuellement avec des sites web conçus principalement pour les humains. »

Selon l'entreprise, tout cela est rendu possible grâce à l'ordinateur de ChatGPT, où le contexte pertinent est partagé durant toute la durée de la tâche, quelle que soit la combinaison d'outils utilisée. « Le modèle est spécialement entraîné pour identifier et exploiter les outils les plus efficaces pour chaque tâche à chaque étape, en évaluant ses résultats plutôt qu'en s'en tenant à une méthode fixe », déclare la société.

En d'autres termes, le modèle apprend de manière dynamique tout en exécutant des tâches, optimisant ainsi son approche en termes de rapidité, de précision et d'efficacité.

D'après OpenAI, l'agent ChatGPT est conçu pour des flux de travail itératifs et collaboratifs, bien plus interactifs et flexibles que les modèles précédents. « Lorsque ChatGPT fonctionne, vous pouvez l'interrompre à tout moment pour clarifier les instructions, rediriger la tâche ou l’orienter vers les résultats souhaités. Il reprendra là où il s'était arrêté, avec les nouvelles informations, sans toutefois perdre les progrès réalisés précédemment. De même, ChatGPT vous demande de manière proactive des informations supplémentaires lorsque cela est nécessaire afin de s'assurer que la tâche reste en adéquation avec vos objectifs. Si une tâche prend plus de temps que prévu ou si elle semble bloquée, vous pouvez la mettre en pause, demander un résumé de la progression ou l'interrompre complètement et recevoir des résultats partiels. »

L'agent peut également utiliser les connecteurs ChatGPT pour accéder en toute sécurité aux informations les plus pertinentes, et permettre à un utilisateur de se connecter en prenant le contrôle du navigateur, afin d'approfondir et d'élargir ses recherches parallèlement à l'exécution des tâches. Grâce à ces capacités, ChatGPT peut véritablement travailler aux côtés de l'utilisateur, en choisissant de manière proactive les actions à entreprendre à mesure qu'il rencontre les différentes informations et étapes dans la tâche.

Evaluations

Selon OpenAI, les capacités avancées du modèle se reflètent dans ses performances de pointe (SOTA) lors d'évaluations académiques mesurant les capacités de navigation sur le Web et d'exécution de tâches dans le monde réel.

Lors du dernier examen de l’humanité, une évaluation qui mesure les performances de l’IA sur un large éventail de sujets et sur des questions de niveau expert, le modèle qui alimente l’agent ChatGPT auraut battu un nouveau record en atteignant le score de 43,1.

OpenAI a également évalué le modèle sur diverses tâches réelles reflétant celles que les analystes seraient amenés à effectuer. Sur DSBench⁠, conçu pour évaluer les agents à l'aide de tâches réalistes en science des données, allant de l'analyse à la modélisation, l'agent ChatGPT a surpassé largement le modèle de pointe précédent et a notamment dépassé de manière significative les performances humaines dans les tâches d'analyse de données.

Sur SpreadsheetBench, qui évalue les modèles sur leur capacité à modifier des feuilles de calcul issues de scénarios réels, l'agent ChatGPT a établi une nouvelle référence en matière de technologie de pointe (SOTA), doublant largement les performances de GPT‑4o, l'actuelle référence SOTA. Selon l'entreprise, lorsqu'il a été autorisé à modifier directement des feuilles de calcul, l'agent ChatGPT a obtenu un score encore meilleur, avec 45,5 %, comparable à celui de Copilot dans Excel (20,0 %).

Sur un benchmark interne qui mesure la capacité d'un modèle à assumer les tâches d'un analyste en banque d'investissement de la première à la troisième année, telles que la création d'un modèle financier à trois états financiers pour une entreprise du Fortune 500 avec une mise en forme et des citations appropriées, ou la construction d'un modèle de rachat par endettement en vue d’une privatisation, le modèle qui alimente l'agent ChatGPT aurait surpassé largement Deep Research et o3. L'entreprise indique que chaque tâche est notée selon des centaines de critères liés à l'exactitude et à l'utilisation des formules.

Par ailleurs, sur WebArena⁠, un benchmark conçu pour évaluer les performances des agents de navigation web dans l'exécution de tâches web dans le monde réel, ce modèle aurait amélioré le CUA optimisé par o3 (le modèle qui alimente Operator).

Enfin, OpenAI a évalué l’agent ChatGPT sur BrowseComp⁠, un benchmark que l'entreprise a publié plus tôt cette année et qui mesure la capacité des agents de navigation à localiser des informations difficiles à trouver sur le web. Le modèle aurait alors établi un nouveau record avec 68,9, soit 17 points de pourcentage de plus que la recherche approfondie.

Élargir l'utilité dans le monde réel

Selon OpenAI, ces capacités agentiques unifiées améliorent considérablement l'utilité de ChatGPT dans les contextes quotidiens et professionnels actuels. « Au travail, vous pouvez automatiser des tâches répétitives, telles que la conversion de captures d'écran ou de tableaux de bord en présentations composées d'éléments vectoriels modifiables, la réorganisation de réunions, la planification et la réservation de séminaires, et la mise à jour de feuilles de calcul avec de nouvelles données financières tout en conservant la même mise en forme. Dans votre vie personnelle, vous pouvez l'utiliser pour planifier et réserver sans effort des itinéraires de voyage, organiser et réserver des dîners, ou trouver des spécialistes et prendre des rendez-vous », déclare l'entreprise.

Mode d’emploi

Les nouvelles fonctionnalités agentiques de ChatGPT peuvent être activées directement à partir du menu déroulant des outils du compositeur en sélectionnant « mode agent » à tout moment dans n'importe quelle conversation. L'utilisateur n'aura alors qu'à décrire simplement la tâche qu'il souhaite accomplir, qu'il s'agisse d'effectuer des recherches approfondies, de créer un diaporama ou de soumettre des dépenses. Au fur et à mesure que l'outil effectue la tâche, une narration à l'écran montre exactement ce que fait ChatGPT. L'utilisateur a alors la possibilité d'interrompre et de prendre le contrôle du navigateur à tout moment, pour de s'assurer que les tâches restent en adéquation avec ses objectifs.

De plus, l'utilisateur peut programmer la répétition automatique des tâches terminées, comme la génération d'un rapport hebdomadaire sur les indicateurs de performance chaque lundi matin.

Contrôle utilisateur et sécurité

Cette version marque la première fois que les utilisateurs peuvent demander à ChatGPT d'effectuer des actions sur le Web. Dès le début, OpenAI indique avoir donné la priorité à la sécurité comme partie intégrante du système, en développant les contrôles robustes issus de l’aperçu de recherche d'Operator et en ajoutant des mesures de protection supplémentaires pour faire face à de nouveaux risques tels que l'élargissement de la portée des utilisateurs et l'accès aux terminaux.

Selon OpenAI, le premier domaine d'atténuation des risques concerne la prévention des erreurs de modèle coûteuses, d'autant plus que celui-ci peut désormais effectuer des tâches qui ont un impact sur le monde réel :

Confirmation explicite de l'utilisateur : ChatGPT demande explicitement l'autorisation de l'utilisateur avant d'effectuer des actions sensibles ou ayant un impact, telles que soumettre des formulaires, effectuer des réservations, réaliser des achats ou interagir avec des sites web impliquant la divulgation de données personnelles.
Surveillance active (« Mode Observation ») : Certaines tâches critiques, telles que la rédaction et l'envoi d'e-mails ou l'utilisation d'applications sensibles, nécessitent la supervision active et l'approbation de l'utilisateur à chaque étape.
Atténuation proactive des risques : ChatGPT refuse activement les tâches à haut risque telles que les transactions financières ou les interactions juridiques sensibles.

Depuis le lancement du projet, OpenAI indique avoir mis l'accent sur la protection de l'agent ChatGPT contre les manipulations malveillantes et les utilisations abusives, domaines que l'entreprise a identifiés comme présentant des risques particulièrement critiques pour les systèmes agentiques :

Défense contre les attaques adversaires (injection rapide) : OpenAI a soigneusement formé et testé l'agent afin qu'il soit capable d'identifier et de résister aux tentatives de manipulation de son comportement par des tiers au moyen d'instructions malveillantes. L'entreprise utilise une surveillance continue pour détecter et répondre rapidement aux attaques par injection, et a formé le modèle à suivre une hiérarchie des instructions⁠ stricte, en donnant la priorité aux instructions fiables et en ignorant celles qui ne le sont pas. En cas d'ambiguïté, OpenAI informe clairement l'utilisateur des risques potentiels et lui donne la possibilité de choisir la marche à suivre. De plus, le fait d'exiger une confirmation explicite de l'utilisateur avant toute action conséquente réduit encore davantage le risque de préjudice lié à ces attaques.
Prévention des abus : ChatGPT rejette systématiquement les demandes préjudiciables ou illégales, en se conformant strictement aux politiques de sécurité existantes de ChatGPT. OpenAI a étendu ces mesures de protection afin d'identifier et de répondre aux risques émergents liés aux interactions web par le biais d'agents. L'utilisation de l'agent ChatGPT est soumise aux politiques et conditions d'utilisation d'OpenAI, qui sont conçues pour garantir une utilisation sûre et responsable de la technologie IA, y compris ces nouvelles fonctionnalités de l'agent.

Selon l'entreprise, l'utilisateur garde le contrôle total sur la manière dont ses données sont traitées. L'agent ChatGPT est conçu pour garantir la transparence et la confidentialité ; les données saisies dans le navigateur distant sont traitées de manière sécurisée et ne sont pas stockées sur les serveurs de ChatGPT.

Contrôles de confidentialité robustes : Les cookies persistent en fonction des politiques de chaque site web visité, ce qui facilite l'utilisation dans toutes les tâches. Cependant, l'utilisateur garde un contrôle total sur ses données de navigation et ses identifiants de connexion à la session. En un seul clic dans les paramètres de ChatGPT, l'utilisateur peut supprimer toutes les données de navigation et se déconnecter immédiatement de toutes les sessions actives sur les sites web.
Mode de prise de contrôle sécurisé du navigateur : Lorsqu'un utilisateur interagit directement avec le Web via le navigateur de ChatGPT (« mode de prise de contrôle »), ses actions et ses saisies restent privées. ChatGPT ne voit ni ne capture aucune des données que l'utilisateur saisit pendant ces sessions.

Disponibilité

L'agent ChatGPT commence à être déployé pour les utilisateurs Pro, Plus et Team, et sera disponible pour les utilisateurs Enterprise et Education en juillet. Les utilisateurs Pro disposent d'un nombre quasi illimité de tâches par mois, tandis que les autres utilisateurs payants ont droit à 50 tâches par mois, avec la possibilité d'augmenter leur quota grâce à des options flexibles basées sur des crédits.

Selon l'entreprise, l'agent ChatGPT peut accéder aux connecteurs des utilisateurs, ce qui lui permet de s'intégrer à leurs flux de travail et d'accéder en toute sécurité à des informations pertinentes et exploitables. Une fois authentifiés, ces connecteurs en lecture seule permettent à ChatGPT de consulter des informations et d'effectuer des tâches telles que résumer la boîte de réception de l'utilisateur pour la journée ou trouver des créneaux horaires auxquels il est disponible pour une réunion. Pour effectuer des actions sur ces sites, OpenAI indique que l'utilisateur sera toujours invité à se connecter en prenant le contrôle du navigateur afin que l'agent puisse ensuite interagir avec le site.

Selon la société, le site de l’aperçu de recherche d’Operator restera fonctionnel pendant une durée de 30 jours, après quoi il sera supprimé. La recherche approfondie fait partie des fonctionnalités de l’agent ChatGPT. OpenAI précise cependant que si l'utilisateur préfère le modèle de recherche approfondie original, qui peut prendre un peu plus de temps mais fournit des réponses plus détaillées et approfondies, il peut toujours y accéder en sélectionnant « recherche approfondie » dans le menu déroulant du rédacteur de message.

Limites et perspectives d'avenir

Selon OpenAI, l'agent ChatGPT en est encore à ses débuts : « il est capable d'effectuer toute une série de tâches complexes, mais il peut encore commettre des erreurs. » Bien que l'entreprise admette voir un potentiel important dans sa capacité à générer des diaporamas, OpenAI indique que cette fonctionnalité est actuellement en version bêta.

« Pour l'instant, les résultats peuvent sembler rudimentaires en termes de formatage et de finition, en particulier lorsque l'on commence sans document existant. Nous avons axé les capacités initiales du modèle sur la génération d'artefacts qui organisent les informations dans un flux et un format adaptés aux présentations, chaque élément (texte, graphiques, images) étant composé de vecteurs facilement modifiables, optimisés pour la structure et la flexibilité. De plus, bien que vous puissiez actuellement télécharger une feuille de calcul existante pour que ChatGPT la modifie ou l'utilise comme modèle, cette fonctionnalité n'est pas encore disponible pour les diaporamas », déclare la société d'IA.

OpenAI précise qu'elle est déjà en train de former la prochaine version de la fonctionnalité de création de diaporamas de ChatGPT afin de produire des résultats plus raffinés et sophistiqués, avec des capacités plus étendues et une mise en forme améliorée.

Dans l'ensemble, l'entreprise prévoit une amélioration continue de l'efficacité, de la profondeur et de la polyvalence de l'agent ChatGPT au fil du temps, notamment grâce à des interactions plus fluides, à mesure qu'elle ajuste le niveau de supervision requis de la part de l'utilisateur afin de le rendre plus utile tout en garantissant une utilisation sécurisée.

Et vous ?

Quel est votre avis sur le sujet ?

Trouvez-vous cette initiative d'OpenAI crédible ou pertinente ?

Voir aussi :

OpenAI a publié un aperçu de recherche de son nouvel agent d'IA Operator, qui contrôle votre navigateur pour effectuer des tâches à votre place sur le web

OpenAI dévoile le nouvel agent IA d'ingénierie logicielle Codex dans ChatGPT pour les développeurs, pour coder, corriger des bugs, et proposer des demandes de révision

OpenAI a lancé un nouvel ensemble d'API et d'outils conçus pour aider les développeurs et les entreprises à construire, déployer et mettre à l'échelle des agents d'intelligence artificielle (IA)

Vous avez lu gratuitement 2 518 articles depuis plus d'un an.
Soutenez le club developpez.com en souscrivant un abonnement pour que nous puissions continuer à vous proposer des publications.

Une erreur dans cette actualité ? Signalez-nous-la !

Votre nom : Votre e-mail :

Décrivez l'erreur que vous souhaitez porter à notre connaissance :

Identifiez-vous

Créer un compte

OpenAI lance un agent d'IA qui contrôle les navigateurs pour effectuer des tâches en plusieurs étapes, notamment des achats en ligne, la création de présentations PowerPoint et de feuilles de calcul

Identifiant
Mot de passe

Mot de passe oublié ?