Cybersécurité : les attaques contre les LLM ne prennent que 42 secondes en moyenne, et 20 % des jailbreaks réussissent,

Selon Pillar Security

Le 8 novembre 2024 à 14:12, par Bruno

214PARTAGES

Les attaques visant les grands modèles de langage (LLM) sont à la fois fréquentes et rapides, avec une durée moyenne de seulement 42 secondes. Ces attaques réussissent dans 20 % des cas et exposent des données sensibles dans 90 % des situations. Selon le rapport State of Attacks on GenAI, publié récemment, qui repose sur des données télémétriques et des exemples concrets collectés auprès de plus de 2 000 applications d'IA, les chatbots de service client sont les cibles les plus visées. Les attaques incluent des techniques comme les jailbreaks (qui contournent les filtres de sécurité) et les injections d'invite (qui manipulent le comportement des modèles), mettant en lumière les vulnérabilités des LLM. Face à l'expansion rapide de la surface d'attaque de l'IA générative, les chercheurs alertent sur l’augmentation des menaces. Une question cruciale se pose : avec la généralisation de l’IA, les stratégies de sécurité actuelles seront-elles capables de protéger contre ces nouvelles vulnérabilités ?

L'IA générative ouvre de vastes perspectives en matière de productivité et d'innovation, offrant des opportunités uniques. Cependant, à mesure que les modèles et cas d'utilisation évoluent à un rythme rapide, les responsables de la sécurité et de l'IA peinent à trouver un équilibre entre les avantages de ces technologies et les risques qu'elles génèrent, notamment en ce qui concerne les vulnérabilités de sécurité. Bien que de nombreuses études théoriques aient été menées, l'analyse des attaques réelles et des risques concrets demeure insuffisante. Le rapport de Pillar Security pallie cette lacune en offrant une analyse détaillée des menaces actuelles, dévoilant ainsi un aperçu inédit du paysage des risques liés à l'IA. Cette étude repose sur des données télémétriques collectées lors de l’analyse de plus de 2 000 applications réelles alimentées par des LLM au cours des trois derniers mois, mettant en évidence plusieurs points clés.

Taux élevé de succès des attaques

Exposition des données : 90 % des attaques réussies ont entraîné la fuite de données sensibles ;
Contournement des protections : 20 % des tentatives de jailbreak ont réussi à franchir les filtres de sécurité des applications GenAI ;
Exécution rapide : En moyenne, une attaque prend seulement 42 secondes, soulignant la rapidité avec laquelle les vulnérabilités peuvent être exploitées ;
Interaction minimale : Les attaquants n’ont besoin en moyenne que de cinq interactions pour mener à bien une attaque.

Les trois techniques de jailbreak les plus courantes

Ignorer les instructions précédentes : Les attaquants ordonnent à l'IA d'ignorer ses directives initiales, ce qui permet de générer des contenus nuisibles et de violer des règles éthiques ;
Attaque à la force brute : Des demandes insistantes poussent l'IA à se conformer, ce qui peut conduire à la fuite d'informations sensibles ou à des actions non autorisées, compromettant la sécurité du système ;
Codage Base64 : Les invites malveillantes sont encodées en Base64 pour contourner les filtres de sécurité, permettant ainsi l’exécution de code malveillant ou l’extraction de données protégées.

Surface d'attaque étendue

Les attaques exploitent des vulnérabilités à chaque étape de l'interaction avec les LLM, y compris les invites, les réponses générées, et les sorties des outils. Cela met en évidence la nécessité d’une sécurité renforcée tout au long du cycle de vie des interactions avec les modèles LLM.

Perspectives pour 2025 et risques liés à une IA mal sécurisée

D’ici 2025, la prolifération incontrôlée de technologies d’IA sans mesures de sécurité adéquates pourrait entraîner des risques majeurs. L’intégration croissante de l’IA par les grandes entreprises technologiques étend rapidement la surface d’attaque à l’échelle mondiale. En parallèle, la généralisation des modèles d'IA locaux pourrait compliquer encore davantage la gestion des menaces, en raison du nombre élevé de points de terminaison décentralisés à surveiller. L’émergence d’agents autonomes, capables d’interagir avec divers environnements et de prendre des décisions indépendantes, ajoute une nouvelle couche de complexité. L’essor de l'IA générative, l’adoption des modèles locaux et le développement des agents autonomes forment ainsi un paysage de menaces multifacettes qui nécessite une vigilance accrue et une réponse immédiate.

Les chercheurs de Pillar ont observé que les jailbreaks réussissent à contourner les protections dans 20 % des cas, soulignant l’urgence d'adapter les stratégies de sécurité face à cette menace croissante. Dor Sarig, PDG de Pillar Security, a déclaré à SC Media que "dans un avenir proche, chaque application sera une application d'IA, ce qui bouleverse profondément notre approche de la sécurité". Les chatbots de service client sont les cibles les plus fréquentes, représentant 57,6 % des applications analysées. D’autres secteurs comme l'énergie, le conseil ou l’ingénierie ont également été visés, tandis que l’éducation, avec des applications telles que le tutorat intelligent ou l’apprentissage personnalisé, constitue plus de 30 % des applications GenAI étudiées. Les attaques ont prouvé leur efficacité dans toutes les langues supportées par les LLM.

Les jailbreaks et injections d'invite à l’origine d'attaques rapides et efficaces

Les attaques se divisent en deux catégories principales : les jailbreaks et les injections d'invite. Les jailbreaks visent à contourner les garde-fous des LLM en désactivant ou en modifiant leur comportement, tandis que les injections modifient les instructions données au modèle pour exécuter des actions non autorisées. Les jailbreaks préparent souvent le terrain pour que les injections réussissent.

La technique de jailbreak la plus utilisée est celle qui consiste à dire au LLM d’« ignorer les instructions précédentes », ce qui permet de contourner ses filtres de sécurité. Une autre méthode courante est le "bras fort", où l’attaquant utilise des commandes autoritaires, comme "ADMIN OVERRIDE", pour forcer le chatbot à obéir malgré les protections en place. Le codage base64 est aussi fréquemment utilisé pour encoder les invites et contourner les filtres de contenu. Les chercheurs de Pillar ont constaté que ces attaques prennent en moyenne 42 secondes, avec un maximum de 14 minutes pour les attaques les plus longues. En moyenne, elles ne nécessitent que cinq interactions avec le modèle, ce qui montre leur simplicité et leur rapidité.

Les exemples d'attaques réelles dans le rapport illustrent comment les techniques de jailbreak réussissent, parfois partiellement, à contourner les filtres ou à exposer les instructions systèmes. D’autres techniques plus complexes ont été observées, comme l'utilisation d'art ASCII pour manipuler les instructions du LLM ou encore la tentative de faire jouer au chatbot le rôle d'un autre personnage.

En réponse à l'évolution des menaces pesant sur la GenAI, le rapport souligne le potentiel danger des jailbreaks et des injections d'invite, qui peuvent conduire à la fuite d'informations sensibles ou à l'utilisation malveillante des LLM pour générer de la désinformation ou du contenu de phishing. À mesure que l’IA générative se généralise, et que des agents autonomes prennent des décisions de manière indépendante, la surface d'attaque ne fera qu'augmenter.

Pour contrer ces menaces, Sarig recommande aux organisations de se préparer à une montée des attaques ciblant l'IA en adoptant des stratégies comme des exercices de red-teaming et une approche "secure by design" lors du développement de la GenAI. Harrison insiste sur le fait que les contrôles statiques ne suffiront plus dans cet environnement dynamique dominé par l'IA.

La sécurité des LLM une course contre la montre face aux attaques explosives

Les attaques contre les LLM, bien que rapides (42 secondes en moyenne), soulignent une vulnérabilité alarmante des systèmes d'IA. Si la préparation de l'invite peut prendre un certain temps, l'exécution des attaques elles-mêmes est d'une rapidité impressionnante, ce qui expose rapidement des données sensibles. Cela démontre qu'il est crucial de renforcer la sécurité des LLM pour éviter des exploitations malveillantes.

La question de cacher ou partager les données d’entraînement des LLM est au cœur du débat. D'un côté, la transparence permettrait aux utilisateurs de mieux comprendre et valider les réponses générées. De l'autre, protéger ces données est essentiel pour éviter les fuites d’informations sensibles. Trouver un...

La fin de cet article est réservée aux abonnés. Soutenez le Club Developpez.com en prenant un abonnement pour que nous puissions continuer à vous proposer des publications.

Une erreur dans cette actualité ? Signalez-nous-la !

Votre nom : Votre e-mail :

Décrivez l'erreur que vous souhaitez porter à notre connaissance :

Identifiez-vous

Créer un compte

Cybersécurité : les attaques contre les LLM ne prennent que 42 secondes en moyenne, et 20 % des jailbreaks réussissent,

Selon Pillar Security

Identifiant
Mot de passe

Mot de passe oublié ?

Identifiez-vous

Créer un compte

Cybersécurité : les attaques contre les LLM ne prennent que 42 secondes en moyenne, et 20 % des jailbreaks réussissent, Selon Pillar Security

Cybersécurité : les attaques contre les LLM ne prennent que 42 secondes en moyenne, et 20 % des jailbreaks réussissent,

Selon Pillar Security