L'entreprise de logiciels d'IA Anthropic a annoncé un nouvel outil capable de prendre le contrôle du curseur de la souris de l'utilisateur et d'effectuer des tâches de base sur son ordinateur. Annoncé en même temps que d'autres améliorations des modèles Claude et Haiku d'Anthropic, l'outil s'appelle tout simplement « Utilisation de l'ordinateur ». Il est disponible exclusivement avec le modèle de milieu de gamme 3.5 Sonnet de la société, via l'API. Les utilisateurs peuvent donner des instructions en plusieurs étapes (Anthropic affirme qu'elles peuvent aller jusqu'à des dizaines, voire des centaines d'étapes) pour accomplir des tâches sur l'ordinateur de l'utilisateur en « regardant un écran, en déplaçant un curseur, en cliquant sur des boutons et en tapant du texte ».Voici comment Anthropic explique son fonctionnement :
« Lorsqu'un développeur confie à Claude l'utilisation d'un logiciel et lui donne les accès nécessaires, Claude regarde les captures d'écran de ce qui est visible par l'utilisateur, puis compte le nombre de pixels verticaux ou horizontaux dont il a besoin pour déplacer un curseur afin de cliquer au bon endroit. Il était essentiel d'apprendre à Claude à compter les pixels avec précision. Sans cette compétence, le modèle éprouve des difficultés à donner des ordres à la souris, tout comme les modèles ont souvent du mal à répondre à des questions simples comme « combien y a-t-il de A dans le mot “banane” ?
Le modèle a bien sûr ses limites. Il fonctionne en prenant des captures d'écran successives et rapides plutôt qu'en travaillant avec un flux vidéo en direct, de sorte qu'il peut manquer des notifications de courte durée ou d'autres changements. Il n'est toujours pas en mesure d'effectuer certaines actions courantes, comme le glisser-déposer.
Anthropic a également indiqué qu'il était parfois « lourd et sujet aux erreurs ». Un billet de blog sur le développement de l'outil donne un exemple de la façon dont il s'est mal comporté lors des tests : Il a abandonné une tâche de codage avant de la terminer et a commencé à la place à « parcourir des photos du parc national de Yellowstone »
Des entreprises concurrentes, comme OpenAI, travaillent sur des outils équivalents, mais ne les ont pas encore rendus publics
Il s'agit en quelque sorte d'une course aux...
La fin de cet article est réservée aux abonnés. Soutenez le Club Developpez.com en prenant un abonnement pour que nous puissions continuer à vous proposer des publications.