L'IA générative ouvre de vastes perspectives en matière de productivité et d'innovation, offrant des opportunités uniques. Cependant, à mesure que les modèles et cas d'utilisation évoluent à un rythme rapide, les responsables de la sécurité et de l'IA peinent à trouver un équilibre entre les avantages de ces technologies et les risques qu'elles génèrent, notamment en ce qui concerne les vulnérabilités de sécurité. Bien que de nombreuses études théoriques aient été menées, l'analyse des attaques réelles et des risques concrets demeure insuffisante. Le rapport de Pillar Security pallie cette lacune en offrant une analyse détaillée des menaces actuelles, dévoilant ainsi un aperçu inédit du paysage des risques liés à l'IA. Cette étude repose sur des données télémétriques collectées lors de l’analyse de plus de 2 000 applications réelles alimentées par des LLM au cours des trois derniers mois, mettant en évidence plusieurs points clés.
Taux élevé de succès des attaques
- Exposition des données : 90 % des attaques réussies ont entraîné la fuite de données sensibles ;
- Contournement des protections : 20 % des tentatives de jailbreak ont réussi à franchir les filtres de sécurité des applications GenAI ;
- Exécution rapide : En moyenne, une attaque prend seulement 42 secondes, soulignant la rapidité avec laquelle les vulnérabilités peuvent être exploitées ;
- Interaction minimale : Les attaquants n’ont besoin en moyenne que de cinq interactions pour mener à bien une attaque.
Les trois techniques de jailbreak les plus courantes
- Ignorer les instructions précédentes : Les attaquants ordonnent à l'IA d'ignorer ses directives initiales, ce qui permet de générer des contenus nuisibles et de violer des règles éthiques ;
- Attaque à la force brute : Des demandes insistantes poussent l'IA à se conformer, ce qui peut conduire à la fuite d'informations sensibles ou à des actions non autorisées, compromettant la sécurité du système ;
- Codage Base64 : Les invites malveillantes sont encodées en Base64 pour contourner les filtres de sécurité, permettant ainsi l’exécution de code malveillant ou l’extraction de données protégées.
Surface d'attaque étendue
Les attaques exploitent des vulnérabilités à chaque étape de l'interaction avec les LLM, y compris les invites, les réponses générées, et les sorties des outils. Cela met en évidence la nécessité d’une sécurité renforcée tout au long du cycle de vie des interactions avec les modèles LLM.
Perspectives pour 2025 et risques liés à une IA mal sécurisée
D’ici 2025, la prolifération incontrôlée de technologies d’IA sans mesures de sécurité adéquates pourrait entraîner des risques majeurs. L’intégration croissante de l’IA par les grandes entreprises technologiques étend rapidement la surface d’attaque à l’échelle mondiale. En parallèle, la généralisation des modèles d'IA locaux pourrait compliquer encore davantage la gestion des menaces, en raison du nombre élevé de points de terminaison décentralisés à surveiller. L’émergence d’agents autonomes, capables d’interagir avec divers environnements et de prendre des décisions indépendantes, ajoute une nouvelle couche de complexité. L’essor de l'IA générative, l’adoption des modèles locaux et le développement des agents autonomes forment ainsi un paysage de menaces multifacettes qui nécessite une vigilance accrue et une réponse immédiate.
Les chercheurs de Pillar ont observé que les jailbreaks réussissent à contourner les protections dans 20 % des cas, soulignant l’urgence d'adapter les stratégies de sécurité face à cette menace croissante. Dor Sarig, PDG de Pillar Security, a déclaré à SC Media que "dans un avenir proche, chaque application sera une application d'IA, ce qui bouleverse profondément notre approche de la sécurité". Les chatbots de service client sont les cibles les plus fréquentes, représentant 57,6 % des applications analysées. D’autres secteurs comme l'énergie, le conseil ou l’ingénierie ont également été visés, tandis que l’éducation, avec des applications telles que le tutorat intelligent ou l’apprentissage personnalisé, constitue plus de 30 % des applications GenAI étudiées. Les attaques ont prouvé leur efficacité dans toutes les langues supportées par les LLM.
Les jailbreaks et injections d'invite à l’origine d'attaques rapides et efficaces
Les attaques se divisent en deux catégories principales : les jailbreaks et les injections d'invite. Les jailbreaks visent à contourner les garde-fous des LLM en désactivant ou en modifiant leur comportement, tandis que les injections modifient les instructions données au modèle pour exécuter des actions non autorisées. Les jailbreaks préparent souvent le terrain pour que les injections réussissent.
La technique de jailbreak la plus utilisée est celle qui consiste à dire au LLM d’« ignorer les instructions précédentes », ce qui permet de contourner ses filtres de sécurité. Une autre méthode courante est le "bras fort", où l’attaquant utilise des commandes autoritaires, comme "ADMIN OVERRIDE", pour forcer le chatbot à obéir malgré les protections en place. Le codage base64 est aussi fréquemment utilisé pour encoder les invites et contourner les filtres de contenu. Les chercheurs de Pillar ont constaté que ces attaques prennent en moyenne 42 secondes, avec un maximum de 14 minutes pour les attaques les plus longues. En moyenne, elles ne nécessitent que cinq interactions avec le modèle, ce qui montre leur simplicité et leur rapidité.
Les exemples d'attaques réelles dans le rapport illustrent comment les techniques de jailbreak réussissent, parfois partiellement, à contourner les filtres ou à exposer les instructions systèmes. D’autres techniques plus complexes ont été observées, comme l'utilisation d'art ASCII pour manipuler les instructions du LLM ou encore la tentative de faire jouer au chatbot le rôle d'un autre personnage.
En réponse à l'évolution des menaces pesant sur la GenAI, le rapport souligne le potentiel danger des jailbreaks et des injections d'invite, qui peuvent conduire à la fuite d'informations sensibles ou à l'utilisation malveillante des LLM pour générer de la désinformation ou du contenu de phishing. À mesure que l’IA générative se généralise, et que des agents autonomes prennent des décisions de manière indépendante, la surface d'attaque ne fera qu'augmenter.
Pour contrer ces menaces, Sarig recommande aux organisations de se préparer à une montée des attaques ciblant l'IA en adoptant des stratégies comme des exercices de red-teaming et une approche "secure by design" lors du développement de la GenAI. Harrison insiste sur le fait que les contrôles statiques ne suffiront plus dans cet environnement dynamique dominé par l'IA.
La sécurité des LLM une course contre la montre face aux attaques explosives
Les attaques contre les LLM, bien que rapides (42 secondes en moyenne), soulignent une vulnérabilité alarmante des systèmes d'IA. Si la préparation de l'invite peut prendre un certain temps, l'exécution des attaques elles-mêmes est d'une rapidité impressionnante, ce qui expose rapidement des données sensibles. Cela démontre qu'il est crucial de renforcer la sécurité des LLM pour éviter des exploitations malveillantes.
La question de cacher ou partager les données d’entraînement des LLM est au cœur du débat. D'un côté, la transparence permettrait aux utilisateurs de mieux comprendre et valider les réponses générées. De l'autre, protéger ces données est essentiel pour éviter les fuites d’informations sensibles. Trouver un équilibre entre transparence et sécurité est donc un défi majeur pour les concepteurs de ces systèmes.
Les applications sensibles, comme les chatbots bancaires, nécessitent des protections spécifiques pour éviter qu'un modèle malveillant ne génère des conseils erronés ou cause des dommages juridiques. Dans ces contextes, il est indispensable d'assurer que les systèmes ne soient pas manipulés pour fournir des réponses dangereuses ou inappropriées.
L’évolution des modèles de langage (LLM) en production, notamment leurs mises à jour et l'intégration de nouvelles données, soulève des enjeux de sécurité importants. Pour garantir la fiabilité des modèles tout au long de leur cycle de vie, particulièrement dans des environnements en constante évolution, il est crucial de mettre en place des protocoles de test et de validation rigoureux. Par ailleurs, l'exploitation de techniques créatives pour contourner les filtres de sécurité, comme l'utilisation de dessins ASCII, met en lumière la complexité des vulnérabilités des LLM. Ces attaques de plus en plus subtiles soulignent l’urgence de renforcer les protections des systèmes face à des menaces de plus en plus diversifiées.
Sur le plan éthique, l'entraînement des LLM sur des données biaisées ou potentiellement nuisibles constitue une préoccupation majeure. Des modèles formés sur des informations non vérifiées ou toxiques risquent de propager des stéréotypes et de diffuser des discours haineux. Il est donc impératif de filtrer soigneusement les données d'entraînement pour garantir que les LLM demeurent éthiques et responsables dans leur utilisation. Ainsi, pour que les LLM soient à la fois efficaces et sûrs, il est essentiel d'équilibrer innovation, sécurité et éthique, tout en assurant la transparence, en protégeant les données et en évitant la diffusion de contenus nuisibles.
Source : Pillar Security
Et vous ?
Les analyses et conclusions présentées par Pillar Security sont-elles pertinentes ?
Quelle est l’efficacité des protections actuelles contre les attaques de jailbreak et d’injections d’invite dans les modèles de langage, compte tenu de leur rapidité et de leur taux de réussite ?
Pourquoi les attaques contre les LLM, telles que les jailbreaks, sont-elles si rapides et simples à exécuter malgré les mesures de sécurité mises en place ?
Les protections actuelles des LLM sont-elles réellement adaptées à la complexité croissante des techniques d'attaque, telles que l’utilisation d'art ASCII pour contourner les filtres ?
Voir aussi :
Des chercheurs bouleversent le statu quo sur la formation des LLM en éliminant du processus la multiplication matricielle, ce qui réduit les coûts liés aux exigences élevées en matière de calcul et de mémoire
Les LLM réduisent le partage des connaissances publiques sur les plateformes de questions-réponses en ligne : il y a moins de contenu valable pour former les IA, qui finissent donc par s'auto-empoisonner