L'entreprise de logiciels d'IA Anthropic a annoncé un nouvel outil capable de prendre le contrôle du curseur de la souris de l'utilisateur et d'effectuer des tâches de base sur son ordinateur. Annoncé en même temps que d'autres améliorations des modèles Claude et Haiku d'Anthropic, l'outil s'appelle tout simplement « Utilisation de l'ordinateur ». Il est disponible exclusivement avec le modèle de milieu de gamme 3.5 Sonnet de la société, via l'API. Les utilisateurs peuvent donner des instructions en plusieurs étapes (Anthropic affirme qu'elles peuvent aller jusqu'à des dizaines, voire des centaines d'étapes) pour accomplir des tâches sur l'ordinateur de l'utilisateur en « regardant un écran, en déplaçant un curseur, en cliquant sur des boutons et en tapant du texte ».Voici comment Anthropic explique son fonctionnement :
« Lorsqu'un développeur confie à Claude l'utilisation d'un logiciel et lui donne les accès nécessaires, Claude regarde les captures d'écran de ce qui est visible par l'utilisateur, puis compte le nombre de pixels verticaux ou horizontaux dont il a besoin pour déplacer un curseur afin de cliquer au bon endroit. Il était essentiel d'apprendre à Claude à compter les pixels avec précision. Sans cette compétence, le modèle éprouve des difficultés à donner des ordres à la souris, tout comme les modèles ont souvent du mal à répondre à des questions simples comme « combien y a-t-il de A dans le mot “banane” ?
Le modèle a bien sûr ses limites. Il fonctionne en prenant des captures d'écran successives et rapides plutôt qu'en travaillant avec un flux vidéo en direct, de sorte qu'il peut manquer des notifications de courte durée ou d'autres changements. Il n'est toujours pas en mesure d'effectuer certaines actions courantes, comme le glisser-déposer.
Anthropic a également indiqué qu'il était parfois « lourd et sujet aux erreurs ». Un billet de blog sur le développement de l'outil donne un exemple de la façon dont il s'est mal comporté lors des tests : Il a abandonné une tâche de codage avant de la terminer et a commencé à la place à « parcourir des photos du parc national de Yellowstone »

Envoyé par
Anthropic
Claude peut désormais utiliser des ordinateurs. La dernière version de Claude 3.5 Sonnet peut, lorsqu'elle est exécutée avec la configuration logicielle appropriée, suivre les commandes d'un utilisateur pour déplacer un curseur sur l'écran de son ordinateur, cliquer sur des endroits pertinents et saisir des informations via un clavier virtuel, émulant ainsi la manière dont les gens interagissent avec leur propre ordinateur.
Nous pensons que cette compétence, qui est actuellement en version bêta publique, représente une avancée significative dans les progrès de l'IA. Nous vous présentons ci-dessous les résultats des recherches qui ont permis de mettre au point des modèles d'utilisation de l'ordinateur et de les rendre plus sûrs.
Pourquoi l'utilisation d'un ordinateur ?
Pourquoi cette nouvelle capacité est-elle importante ? Une grande partie du travail moderne s'effectue sur ordinateur. Permettre à l'IA d'interagir directement avec les logiciels informatiques de la même manière que les humains débloquera une vaste gamme d'applications qui ne sont tout simplement pas possibles pour la génération actuelle d'assistants d'IA.
Au cours des dernières années, de nombreuses étapes importantes ont été franchies dans le développement d'une IA puissante - par exemple, la capacité d'effectuer des raisonnements logiques complexes et la capacité de voir et de comprendre des images. La prochaine frontière est l'utilisation de l'ordinateur : Des modèles d'IA qui n'ont pas besoin d'interagir par le biais d'outils sur mesure, mais qui sont au contraire habilités à utiliser pratiquement n'importe quel logiciel selon les instructions reçues.
L'outil est actuellement en version bêta publique, mais il est déjà utilisé par des organisations partenaires depuis un certain temps. Des employés d'entreprises telles qu'Amazon, Canva, Asana et Notion l'ont testé de manière limitée.
Des entreprises concurrentes, comme OpenAI, travaillent sur des outils équivalents, mais ne les ont pas encore rendus publicsIl s'agit en quelque sorte d'une course aux armements, car ces outils devraient générer beaucoup de revenus dans quelques années s'ils progressent comme prévu. On pense que ces outils pourraient à terme automatiser de nombreuses tâches subalternes dans les emplois de bureau. Ils pourraient également être utiles aux développeurs en ce sens qu'ils pourraient « automatiser les tâches répétitives » et rationaliser les travaux laborieux d'assurance qualité et d'optimisation.
Cela fait partie depuis longtemps du message d'Anthropic aux investisseurs : ses outils d'IA pourraient prendre en charge une grande partie de certains travaux de bureau de manière plus efficace et plus abordable que les humains. Le test public de la fonction Computer Use est une étape vers la réalisation de cet objectif.
Nous connaissons bien sûr le débat permanent sur ces types d'outils entre ceux qui disent que « c'est juste un outil qui facilitera le travail des gens » et ceux qui disent que « cela va mettre des gens au chômage dans toutes les industries comme une boule de démolition ». En fait, les deux pourraient se produire dans une certaine mesure. La question est simplement de savoir quel sera le ratio... et cela peut varier en fonction de la situation ou de l'industrie.
Le déploiement à grande échelle de cette technologie suscite toutefois de nombreuses inquiétudes valablesAnthropic a eu le mérite d'essayer d'anticiper certaines d'entre elles en mettant en place des mesures de protection dès le départ. L'entreprise a donné quelques exemples dans son billet de blog :

Envoyé par
Anthropic
Comme pour toute capacité d'IA, il existe également un risque que les utilisateurs abusent intentionnellement des compétences informatiques de Claude. Nos équipes ont mis au point des classificateurs et d'autres méthodes pour repérer et limiter ce type d'abus. À l'approche des élections américaines, nous sommes très attentifs aux tentatives d'abus qui pourraient être perçues comme une atteinte à la confiance du public dans les processus électoraux. Bien que l'utilisation des ordinateurs ne soit pas suffisamment avancée ou capable de fonctionner à une échelle qui présenterait des risques accrus par rapport aux capacités existantes, nous avons mis en place des mesures pour surveiller lorsque Claude est invité à s'engager dans des activités liées aux élections, ainsi que des systèmes pour éloigner Claude d'activités telles que la création et la publication de contenu sur les médias sociaux, l'enregistrement de domaines web, ou l'interaction avec des sites web gouvernementaux.
Ces mesures de protection ne sont pas parfaites, car il peut y avoir des moyens créatifs de les contourner ou d'autres conséquences involontaires ou abusives qui restent à découvrir.
Pour l'instant, Anthropic teste Computer Use pour voir quels problèmes se posent et pour travailler avec les développeurs afin d'améliorer ses capacités et de trouver des utilisations positives.
D'autres implications potentiellesAlors que l'outil d'Anthropic ouvre des perspectives fascinantes pour l'avenir de l'interaction homme-machine, il est essentiel de se projeter dans les implications potentielles et d'envisager les scénarios futurs, aussi bien...
La fin de cet article est réservée aux abonnés. Soutenez le Club Developpez.com en
prenant un abonnement pour que nous puissions continuer à vous proposer des publications.