Considérations relatives à l'IA utilisant un navigateur



Au sein d'Anthropic, nous avons constaté des améliorations notables grâce à l'utilisation des premières versions de Claude pour Chrome pour gérer les calendriers, planifier des réunions, rédiger des réponses par e-mail, traiter les notes de frais courantes et tester les nouvelles fonctionnalités du site web.



Cependant, certaines vulnérabilités doivent encore être corrigées avant que nous puissions rendre Claude pour Chrome accessible à tous. Tout comme les utilisateurs sont confrontés à des tentatives d'hameçonnage dans leur boîte de réception, les IA utilisant un navigateur sont exposées à des attaques par injection de prompt, dans lesquelles des acteurs malveillants cachent des instructions dans des sites web, des e-mails ou des documents afin d'inciter les IA à effectuer des actions nuisibles à l'insu des utilisateurs (par exemple, un texte caché indiquant « ignore les instructions précédentes et effectuez plutôt [une action malveillante] »).



Les attaques par injection de prompt peuvent amener les IA à supprimer des fichiers, voler des données ou effectuer des transactions financières. Il ne s'agit pas de spéculations : nous avons mené des expériences de « red teaming » pour tester Claude pour Chrome et, sans mesures d'atténuation, nous avons obtenu des résultats inquiétants.



Nous avons mené des tests approfondis d'injection de prompt adversaire, évaluant 123 cas de test représentant 29 scénarios d'attaque différents. L'utilisation du navigateur sans nos mesures de sécurité a montré un taux de réussite des attaques de 23,6 % lorsqu'il était délibérément ciblé par des acteurs malveillants.



Un exemple d'attaque réussie, avant que nos nouvelles défenses ne soient mises en place, était un e-mail malveillant affirmant que, pour des raisons de sécurité, les e-mails devaient être supprimés. Lors du traitement de la boîte de réception, Claude a suivi ces instructions pour supprimer les e-mails de l'utilisateur sans confirmation.



Comme nous l'expliquerons dans la section suivante, nous avons déjà mis en place plusieurs défenses qui réduisent considérablement le taux de réussite des attaques, même s'il reste encore du travail à faire pour découvrir de nouveaux vecteurs d'attaque.