L'entreprise de logiciels d'IA Anthropic a annoncé un nouvel outil capable de prendre le contrôle du curseur de la souris de l'utilisateur et d'effectuer des tâches de base sur son ordinateur. Annoncé en même temps que d'autres améliorations des modèles Claude et Haiku d'Anthropic, l'outil s'appelle tout simplement « Utilisation de l'ordinateur ». Il est disponible exclusivement avec le modèle de milieu de gamme 3.5 Sonnet de la société, via l'API. Les utilisateurs peuvent donner des instructions en plusieurs étapes (Anthropic affirme qu'elles peuvent aller jusqu'à des dizaines, voire des centaines d'étapes) pour accomplir des tâches sur l'ordinateur de l'utilisateur en « regardant un écran, en déplaçant un curseur, en cliquant sur des boutons et en tapant du texte ».Voici comment Anthropic explique son fonctionnement :
« Lorsqu'un développeur confie à Claude l'utilisation d'un logiciel et lui donne les accès nécessaires, Claude regarde les captures d'écran de ce qui est visible par l'utilisateur, puis compte le nombre de pixels verticaux ou horizontaux dont il a besoin pour déplacer un curseur afin de cliquer au bon endroit. Il était essentiel d'apprendre à Claude à compter les pixels avec précision. Sans cette compétence, le modèle éprouve des difficultés à donner des ordres à la souris, tout comme les modèles ont souvent du mal à répondre à des questions simples comme « combien y a-t-il de A dans le mot “banane” ?
Le modèle a bien sûr ses limites. Il fonctionne en prenant des captures d'écran successives et rapides plutôt qu'en travaillant avec un flux vidéo en direct, de sorte qu'il peut manquer des notifications de courte durée ou d'autres changements. Il n'est toujours pas en mesure d'effectuer certaines actions courantes, comme le glisser-déposer.
Anthropic a également indiqué qu'il était parfois « lourd et sujet aux erreurs ». Un billet de blog sur le développement de l'outil donne un exemple de la façon dont il s'est mal comporté lors des tests : Il a abandonné une tâche de codage avant de la terminer et a commencé à la place à « parcourir des photos du parc national de Yellowstone »
Des entreprises concurrentes, comme OpenAI, travaillent sur des outils équivalents, mais ne les ont pas encore rendus publics
Il s'agit en quelque sorte d'une course aux armements, car ces outils devraient générer beaucoup de revenus dans quelques années s'ils progressent comme prévu. On pense que ces outils pourraient à terme automatiser de nombreuses tâches subalternes dans les emplois de bureau. Ils pourraient également être utiles aux développeurs en ce sens qu'ils pourraient « automatiser les tâches répétitives » et rationaliser les travaux laborieux d'assurance qualité et d'optimisation.
Cela fait partie depuis longtemps du message d'Anthropic aux investisseurs : ses outils d'IA pourraient prendre en charge une grande partie de certains travaux de bureau de manière plus efficace et plus abordable que les humains. Le test public de la fonction Computer Use est une étape vers la réalisation de cet objectif.
Nous connaissons bien sûr le débat permanent sur ces types d'outils entre ceux qui disent que « c'est juste un outil qui facilitera le travail des gens » et ceux qui disent que « cela va mettre des gens au chômage dans toutes les industries comme une boule de démolition ». En fait, les deux pourraient se produire dans une certaine mesure. La question est simplement de savoir quel sera le ratio... et cela peut varier en fonction de la situation ou de l'industrie.
Le déploiement à grande échelle de cette technologie suscite toutefois de nombreuses inquiétudes valables
Anthropic a eu le mérite d'essayer d'anticiper certaines d'entre elles en mettant en place des mesures de protection dès le départ. L'entreprise a donné quelques exemples dans son billet de blog :
Pour l'instant, Anthropic teste Computer Use pour voir quels problèmes se posent et pour travailler avec les développeurs afin d'améliorer ses capacités et de trouver des utilisations positives.
D'autres implications potentielles
Alors que l'outil d'Anthropic ouvre des perspectives fascinantes pour l'avenir de l'interaction homme-machine, il est essentiel de se projeter dans les implications potentielles et d'envisager les scénarios futurs, aussi bien...
La fin de cet article est réservée aux abonnés. Soutenez le Club Developpez.com en prenant un abonnement pour que nous puissions continuer à vous proposer des publications.