IdentifiantMot de passe
Loading...
Mot de passe oublié ?Je m'inscris ! (gratuit)

Vous êtes nouveau sur Developpez.com ? Créez votre compte ou connectez-vous afin de pouvoir participer !

Vous devez avoir un compte Developpez.com et être connecté pour pouvoir participer aux discussions.

Vous n'avez pas encore de compte Developpez.com ? Créez-en un en quelques instants, c'est entièrement gratuit !

Si vous disposez déjà d'un compte et qu'il est bien activé, connectez-vous à l'aide du formulaire ci-dessous.

Identifiez-vous
Identifiant
Mot de passe
Mot de passe oublié ?
Créer un compte

L'inscription est gratuite et ne vous prendra que quelques instants !

Je m'inscris !

OpenAI a publié un aperçu de recherche de son nouvel agent d'IA Operator, qui contrôle votre navigateur pour effectuer des tâches à votre place sur le web

Le , par Jade Emy

5PARTAGES

9  0 
OpenAI lance en aperçu de recherche d'Operator, un agent d'intelligence artificielle qui exécute des tâches à votre place sur le web. Operator peut utiliser son propre navigateur en "tapant, en cliquant et en faisant défiler" pour effectuer des tâches pour vous. La société indique qu'Operator est disponible pour les utilisateurs de ChatGPT Pro aux États-Unis, mais elle prévoit d'offrir l'outil à un plus grand nombre d'utilisateurs dans les catégories Plus, Team et Enterprise.

OpenAI s'attaque à la prochaine vague de l'intelligence artificielle (IA) avec un agent autonome. L'agent d'IA, dont le nom de code est "Operator", peut effectuer des tâches au nom d'une personne, y compris le codage et la réservation de voyages. Selon une réunion des dirigeants d'OpenAI en novembre 2024, l'éditeur de ChatGPT prévoit de lancer l'agent d'IA en tant qu'aperçu de recherche et par le biais de son interface de programmation d'applications (API).

Le 23 janvier 2025, OpenAI a publié un aperçu de recherche de son nouvel agent d'IA Operator, qui devrait "aller sur le web pour effectuer des tâches à votre place". Dans un billet de blog, la société technologique explique que l'agent sera capable d'interagir avec son propre navigateur en "tapant, en cliquant et en faisant défiler".

Cette fonctionnalité est disponible pour les utilisateurs américains de ChatGPT Pro, qui coûte 200 dollars par mois. Cela dit, comme elle est encore en mode recherche, OpenAI reconnaît qu'il y aura des limitations et qu'elle continuera à évoluer en fonction des commentaires des utilisateurs. La société indique qu'elle prévoit d'offrir l'outil à un plus grand nombre d'utilisateurs dans les catégories Plus, Team et Enterprise.

https://youtu.be/CSE77wAdDLg

Lors d'un livestream, le PDG Sam Altman a déclaré que "[Operator] sera bientôt disponible dans d'autres pays", mais il a admis qu'il faudrait "un certain temps" avant qu'il ne soit déployé en Europe. Même si l'aperçu initial de la recherche est disponible, OpenAI indique qu'elle prévoit d'intégrer Operator dans toutes ses applications ChatGPT prochainement.

OpenAI affirme collaborer avec des entreprises telles que DoorDash, Instacart, OpenTable, Priceline, StubHub, Thumbtack, Uber et d'autres pour s'assurer que le système "répond aux besoins du monde réel tout en respectant les normes établies".

OpenAI explique qu'Operator fonctionne sur un nouveau modèle appelé Computer-Using Agent (CUA), qui combine les capacités de vision de GPT-4o avec un raisonnement avancé alimenté par l'apprentissage par renforcement. Il est formé pour interagir avec les interfaces utilisateur graphiques (IUG), c'est-à-dire les boutons, les menus et les champs de texte que l'on voit sur un écran.

Avec Operator, le modèle peut "voir" en analysant des captures d'écran et "interagir" à l'aide de la souris et du clavier. Cela l'aide à naviguer sur le web et à prendre des mesures sans dépendre d'intégrations d'API personnalisées. S'il rencontre un problème ou commet une erreur, il utilise ses capacités de raisonnement pour s'autocorriger. Et lorsqu'il est vraiment bloqué, il vous redonne le contrôle.

Cette annonce semble confirmer les prévisions de Goldman Sachs. Selon Marco Argenti, DSI de Goldman Sachs, pour 2025, l'intelligence artificielle (IA) sera dominée par la maturation des codes d'IA en tant que "travailleurs" d'entreprise qui peuvent prendre en charge les processus d'entreprise et être gérés comme des employés. Il ajoute que cela créera les conditions pour que les entreprises finissent par "employer" et former les travailleurs IA pour qu'ils fassent partie d'équipes hybrides composées d'humains et d'IA travaillant ensemble.

Voici l'annonce d'OpenAI concernant Operator :

Aujourd'hui, nous lançons Operator, un agent capable d'aller sur le web pour effectuer des tâches à votre place. En utilisant son propre navigateur, il peut consulter une page web et interagir avec elle en tapant, en cliquant et en faisant défiler la page. Il s'agit actuellement d'un aperçu de recherche, ce qui signifie qu'il a des limites et qu'il évoluera en fonction des commentaires des utilisateurs. Operator est l'un de nos premiers agents, c'est-à-dire des IA capables d'effectuer un travail pour vous de manière autonome : vous lui confiez une tâche et il l'exécute.

On peut demander à Operator de s'occuper d'une grande variété de tâches de navigation répétitives telles que remplir des formulaires, commander des courses et même créer des mèmes. La possibilité d'utiliser les mêmes interfaces et outils que ceux avec lesquels les humains interagissent quotidiennement élargit l'utilité de l'IA, en aidant les gens à gagner du temps sur les tâches quotidiennes tout en ouvrant de nouvelles opportunités d'engagement pour les entreprises.

Pour garantir un déploiement sûr et itératif, nous commençons modestement. Dès aujourd'hui, Operator est disponible pour les utilisateurs Pro aux États-Unis sur operator.chatgpt.com. Cet aperçu de la recherche nous permet d'apprendre de nos utilisateurs et de l'écosystème plus large, en affinant et en améliorant au fur et à mesure. Nous prévoyons d'étendre l'application aux utilisateurs Plus, Team et Enterprise et d'intégrer ces fonctionnalités dans ChatGPT à l'avenir.

https://youtu.be/tmseP0YFWLM

Comment fonctionne Operator

Operator est alimenté par un nouveau modèle appelé Computer-Using Agent (CUA). Combinant les capacités de vision du GPT-4o avec un raisonnement avancé grâce à l'apprentissage par renforcement, le CUA est formé pour interagir avec les interfaces utilisateur graphiques (IUG), c'est-à-dire les boutons, les menus et les champs de texte que l'on voit sur un écran.

L'opérateur peut "voir" (par le biais de captures d'écran) et "interagir" (en utilisant toutes les actions permises par une souris et un clavier) avec un navigateur, ce qui lui permet d'agir sur le web sans nécessiter d'intégrations d'API personnalisées.

S'il rencontre des difficultés ou commet des erreurs, Operator peut tirer parti de ses capacités de raisonnement pour s'auto-corriger. Lorsqu'il est bloqué et qu'il a besoin d'aide, il redonne simplement le contrôle à l'utilisateur, garantissant ainsi une expérience fluide et collaborative.

Bien que le CUA n'en soit qu'à ses débuts et qu'elle ait ses limites, elle établit de nouveaux résultats de référence dans WebArena et WebVoyager, deux tests de référence clés pour l'utilisation des navigateurs.

Comment utiliser Operator

Pour commencer, décrivez simplement la tâche que vous souhaitez accomplir et Operator se chargera du reste. Les utilisateurs peuvent choisir de prendre le contrôle du navigateur à distance à tout moment, et Operator est formé pour demander proactivement à l'utilisateur de prendre le contrôle pour les tâches qui nécessitent une connexion, des détails de paiement, ou lors de la résolution de CAPTCHAs.

Les utilisateurs peuvent personnaliser leurs flux de travail dans Operator en ajoutant des instructions personnalisées, soit pour tous les sites, soit pour des sites spécifiques. Operator permet aux utilisateurs d'enregistrer des instructions pour un accès rapide sur la page d'accueil, ce qui est idéal pour les tâches répétitives. À l'instar de l'utilisation de plusieurs onglets dans un navigateur, les utilisateurs peuvent demander à Operator d'exécuter plusieurs tâches simultanément en créant de nouvelles conversations.

Prochaines étapes

  • CUA dans l'API : OpenAI prévoit d'exposer prochainement le modèle qui alimente Operator, CUA, dans l'API afin que les développeurs puissent l'utiliser pour créer leurs propres agents utilisant l'ordinateur.
  • Capacités améliorées : OpenAI prévoit d'améliorer la capacité d'Operator à gérer des flux de travail plus longs et plus complexes.
  • Un accès plus large : OpenAI prévoit d'étendre l'accès à Operator aux utilisateurs Plus, Team et Enterprise et d'intégrer ses capacités directement dans ChatGPT à l'avenir. Mais OpenAI ne procèderait à cela qu'une fois être convaincus de sa sécurité et de sa facilité d'utilisation à grande échelle.


https://youtu.be/4e2K50CO4iM

Voici les informations qu'OpenAI a partagées concernant la sécurité d'Operator :

[QUOTE]Sécurité et protection de la vie privée

La sécurité d'utilisation d'Operator est une priorité absolue, avec trois niveaux de protection pour éviter les abus et garantir que les utilisateurs gardent le contrôle.

Tout d'abord, Operator est formé pour s'assurer que la personne qui l'utilise garde toujours le contrôle et lui demande son avis à des moments critiques.

[LIST][*]Mode prise de contrôle : Operator demande à l'utilisateur de prendre le contrôle lorsqu'il saisit des informations sensibles dans le navigateur, telles que les identifiants de connexion ou les informations de paiement. En mode prise en charge, Operator ne collecte pas les informations saisies par l'utilisateur et n'en fait pas de capture d'écran.

[*]Confirmations de l'utilisateur : Avant de finaliser une action importante, telle que la soumission d'une commande ou l'envoi d'un courrier électronique, Operator doit demander l'approbation de l'utilisateur.

[*]Limitation...
La fin de cet article est réservée aux abonnés. Soutenez le Club Developpez.com en prenant un abonnement pour que nous puissions continuer à vous proposer des publications.

Une erreur dans cette actualité ? Signalez-nous-la !