Contrôle natif de l'ordinateur : une première avec l'IA ChatGPT

Amélioration de la vision et du traitement des documents

Recherche d'outils et amélioration de l'orchestration des outils

La fin de cet article est réservée aux abonnés. Soutenez le Club Developpez.com en prenant un abonnement pour que nous puissions continuer à vous proposer des publications.

Les mises à jour de dans le secteur de l'IA ne ralentissent pas. Littéralement deux jours après le lancement par OpenAI d'un nouveau modèle sous-jacent pour ChatGPT appelé GPT-5.3 Instant, la société présente une autre mise à jour encore plus importante : GPT-5.4. Le nouveau modèle consolide certaines des capacités qu'OpenAI avait auparavant réparties entre différents modèles, en réunissant les capacités de codage, de raisonnement et d'action.Les points forts de cette version concernent l'efficacité, OpenAI indiquant que GPT-5.4 utilise beaucoup moins de jetons (47 % de moins pour certaines tâches) que ses prédécesseurs et, ce qui est sans doute encore plus impressionnant, un nouveau mode d'utilisation « natif » de la machine disponible via l'API et Codex, qui permet à GPT-5.4 de naviguer sur l'ordinateur d'un utilisateur comme comme un humain et de travailler sur plusieurs applications.OpenAI lance également une nouvelle suite d'intégrations ChatGPT permettant à GPT-5.4 d'être directement connecté à Microsoft Excel et Google Sheets, ce qui favorise une analyse granulaire et l'exécution automatisée des tâches. Cela devrait accélérer le travail de toutes les équipes, mais pourrait accentuer les craintes de licenciements de cols blancs, dans la foulée d'offres similaires proposées par Claude d'Anthropic et sa nouvelle application Cowork.L'entreprise affirme ensuite que GPT-5.4 prend en charge jusqu'à 1 million de tokens de contexte dans l'API et Codex, ce qui permet aux agents de planifier, d'exécuter et de vérifier des tâches sur de longues périodes. Cependant, le coût par million de tokens double dès que l'entrée dépasse 272 000 tokens.La nouveauté la plus importante mise en avant par OpenAI est que GPT-5.4 est son premier modèle polyvalent doté de capacités natives de pointe en matière d'utilisation de l'ordinateur dans Codex et l'API, permettant aux agents de contrôler des ordinateurs et d'effectuer des flux de travail en plusieurs étapes dans différentes applications. Les agents IA se popularisent rapidement, notamment au sein des entreprises de développement de logiciels.OpenAI explique que le modèle peut à la fois écrire du code pour faire fonctionner des ordinateurs via des bibliothèques telles que Playwright et émettre des commandes de souris et de clavier en réponse à des captures d'écran. OpenAI revendique également une avancée significative dans la navigation Web par les agents. Les résultats des tests de performance sont présentés comme la preuve qu'il ne s'agit pas simplement d'une interface utilisateur.Sur BrowseComp, qui mesure la capacité des agents IA à naviguer de manière persistante sur le Web pour trouver des informations difficiles à localiser, OpenAI rapporte que GPT-5.4 s'améliore de 17 % en valeur absolue par rapport à GPT-5.2, et que GPT-5.4 Pro atteint 89,3 %, ce qui est présenté comme une nouvelle référence en la matière. Sur OSWorld-Verified, GPT-5.4 affiche un taux de réussite de 75,0 %, contre seulement 47,3 % pour GPT-5.2.OSWorld-Verified mesure la navigation sur ordinateur à l'aide de captures d'écran et d'actions au clavier et à la souris. (Les performances humaines rapportées sont de 72,4 %.) Sur WebArena-Verified, GPT-5.4 atteint un taux de réussite de 67,3 % en utilisant à la fois des interactions basées sur le DOM et des captures d'écran. Sur Online-Mind2Web, il affiche un score de 92,8 % en utilisant uniquement des observations basées sur des captures d'écran.OpenAI établit également un lien entre l'utilisation d'un ordinateur et l'amélioration de la vision et du traitement des documents. Sur MMMU-Pro, GPT-5.4 atteint un taux de réussite de 81,2 % sans utiliser d'outils, contre 79,5 % pour GPT-5.2. Dans un billet de blogue, l'entreprise affirme avoir obtenu ce résultat en utilisant une fraction des « jetons de réflexion ». Sur OmniDocBench, l'erreur moyenne de GPT-5.4 est de 0,109, contre 0,140 pour GPT-5.2.L'article décrit également une prise en charge étendue des entrées d'images haute fidélité, avec un niveau de détail « original » pouvant atteindre 10,24 millions de pixels. OpenAI positionne GPT-5.4 comme étant conçu pour des flux de travail plus longs et en plusieurs étapes, un travail qui ressemble de plus en plus à celui d'un agent conservant un état à travers de nombreuses actions plutôt qu'à celui d'un chatbot répondant une seule fois.Selon OpenAI, l'approche naïve consistant à déverser toutes les définitions d'outils dans le prompt crée une taxe sur chaque requête : coût, latence et pollution contextuelle. GPT-5.4 introduit la recherche d'outils dans l'API comme solution structurelle. Au lieu de tout recevoir à l'avance, il reçoit une liste allégée d'outils ainsi qu'une fonction de recherche, et il ne récupère les définitions complètes des outils que lorsqu'elles sont réellement nécessaires....