Depuis septembre 2025, Google a intégré à Chrome un assistant alimenté par son modèle d’intelligence artificielle Gemini. Concrètement, un chat-window basé sur Gemini est disponible dans le navigateur, avec la promesse que Chrome finira par disposer de capacités « agentic » — c’est-à-dire la faculté d’agir en autonome, d’interagir avec les contrôles du navigateur, de remplir des formulaires, de naviguer sur des sites, voire d’exécuter des séquences d’actions complexes sur la base d’un simple prompt de l’utilisateur. Ce virage transforme Chrome — jusque-là un simple outil d’affichage et d’interaction manuelle avec le web — en un véritable « navigateur-agent », capable d’agir pour l’utilisateur. Mais cette évolution soulève des enjeux de sécurité, de vie privée et de confiance fondamentalement nouveaux.
Google prévoit d'ajouter un deuxième modèle basé sur Gemini à Chrome afin de résoudre les problèmes de sécurité créés par l'ajout du premier modèle Gemini à Chrome.
En septembre, Google a ajouté une fenêtre de chat alimentée par Gemini à son navigateur et a promis que le logiciel acquerrait bientôt des capacités d'action lui permettant d'interagir avec les commandes du navigateur et d'autres outils en réponse à une invite.
Il est dangereux de permettre à des modèles d'IA sujets aux erreurs de naviguer sur le web sans intervention humaine, car le logiciel peut ingérer du contenu – provenant peut-être d'une page web malveillante – qui lui ordonne d'ignorer les mesures de sécurité. C'est ce qu'on appelle « l'injection indirecte de commandes »
Le problème : « l’indirect prompt injection »
L’un des dangers majeurs identifiés est ce que Google nomme « indirect prompt injection ». Il s’agit d’un scénario dans lequel une page web malveillante — ou un contenu inséré par des tiers (iframe, publicité, contenu généré par un utilisateur, commentaires, etc.) — contient des instructions destinées à manipuler l’agent IA afin qu’il exécute des actions non souhaitées. Par exemple : lancer un paiement, envoyer des données sensibles, ou réaliser d’autres actions potentiellement dangereuses
Puisque l’IA « lit » le contenu des pages web pour décider de ce qu’elle va faire, cette exposition à du contenu non fiable rend le système vulnérable
Nathan Parker, qui fait partie de l'équipe de sécurité de Chrome, affirme que l’injection indirecte de prompts représente « la principale nouvelle menace pour tous les navigateurs agentics. » Dans un billet de blog, il déclare :
« La principale nouvelle menace à laquelle sont confrontés tous les navigateurs agentics est l'injection indirecte de commandes. Elle peut apparaître sur des sites malveillants, dans du contenu tiers dans des iframes ou dans du contenu généré par les utilisateurs, comme les avis, et peut amener l'agent à effectuer des actions indésirables, telles que lancer des transactions financières ou exfiltrer des données sensibles. Face à ce défi, nous investissons dans une défense multicouche qui comprend à la fois des défenses déterministes et probabilistes afin de rendre les attaques difficiles et coûteuses pour les pirates.
« La conception d'une navigation sécurisée par agent pour Chrome a nécessité une collaboration étroite entre les experts en sécurité de Google. Nous nous sommes appuyés sur les protections existantes de Gemini et les principes de sécurité des agents, et avons mis en place plusieurs nouveaux niveaux de protection pour Chrome.
La solution de Google : « Empiler l’IA sur l’IA »
Consciente de ces risques, Google a décidé de ne pas simplement désactiver ou retarder les fonctions agentic de Chrome. À la place, l’entreprise mise sur… une seconde IA — un modèle distinct — pour surveiller, contrôler, et valider les actions de la première. Ce modèle est baptisé User Alignment Critic (UAC).
Le fonctionnement est le suivant :
- L’agent « principal » (le modèle Gemini) planifie les actions à réaliser sur la base du prompt de l’utilisateur + du contenu web.
- Avant d’exécuter quoi que ce soit, le « User Alignment Critic » intervient après la planification et avant l’exécution : il examine la ou les actions proposées, mais sans avoir accès au contenu web non filtré — uniquement à des métadonnées de l’action (cible, type d’action, domaine, etc.).
- Si l’action est jugée “désalignée” (c.-à-d. qu’elle ne correspond pas à l’objectif déclaré de l’utilisateur, ou qu’elle présente un risque), l’agent est invité à reformuler ses actions — et en cas d’échec récurrent, le contrôle est rendu à l’utilisateur.
Ainsi, selon Google, c’est un second modèle IA qui sert de garde-fous aux excès potentiels du premier — un pattern de « IA sur IA », déjà réfléchi dans des travaux de recherche internes, notamment un cadre conceptuel publié en 2025 (le “CaMeL”)
Nathan Parker explique :
« Le principal modèle de planification de Gemini utilise le contenu des pages partagées dans Chrome pour décider de l'action à entreprendre. L'exposition à des contenus web non fiables le rend intrinsèquement vulnérable à l'injection indirecte de commandes. Nous utilisons des techniques telles que le "spotlighting" qui incitent le modèle à privilégier les instructions de l'utilisateur et du système plutôt que le contenu de la page, et nous avons intégré des attaques connues afin d'entraîner le modèle Gemini à les éviter.
« Pour renforcer davantage l'alignement du modèle au-delà du spotlighting, nous introduisons le User Alignment Critic, un modèle distinct construit avec Gemini qui agit comme un composant système hautement fiable. Cette architecture s'inspire en partie du modèle dual-LLM ainsi que des recherches CaMeL de Google DeepMind.
« Le User Alignment Critic s...
La fin de cet article est réservée aux abonnés. Soutenez le Club Developpez.com en prenant un abonnement pour que nous puissions continuer à vous proposer des publications.


Google a-t-il raison d’affirmer que seule l’IA peut corriger les risques générés par l’IA, ou s’agit-il d’un cercle vicieux technologique ?