L'outil de sécurité de Meta censé lutter contre les attaques par injection d'invite est lui-même vulnérable à ces attaques,

Il suffit de supprimer la ponctuation et d'ajouter des espaces entre chaque lettre

Le 30 juillet 2024 à 22:23, par Mathis Lucas

49PARTAGES

L'outil de sécurité de Meta censé lutter contre les attaques par injection d'invite est lui-même vulnérable à ces attaques
il suffit de supprimer la ponctuation et d'ajouter des espaces entre chaque lettre

Meta a récemment lancé un outil de sécurité pour l'IA appelé "Prompt-Guard-86M" et basé sur l'apprentissage automatique. Il est conçu pour détecter et répondre aux attaques par injection, mais un chercheur a découvert que Prompt-Guard-86M est lui-même vulnérable aux attaques par injection d'invite. L'outil de sécurité pour l'IA conçu par Meta peut être facilement contourné en ajoutant des espaces entre les lettres de l'invite, et en omettant la ponctuation. Il s'agit d'une découverte embarrassante pour Meta et cela démontre une nouvelle fois que l'injection d'invite et l'hallucination des modèles sont deux problèmes épineux pour les entreprises d'IA.

Un espacement des caractères peut désactiver les capacités de détection de Prompt-Guard-86M

Les grands modèles de langage (LLM) sont formés à l'aide des quantités importantes de texte ainsi que d'autres données, qu'ils peuvent reproduire à la demande. Cela peut être problématique si le matériel est dangereux, douteux ou contient des informations personnelles. Pour atténuer ce risque, les créateurs de modèles d'IA mettent en œuvre des mécanismes de filtrage appelés "garde-fous" qui interceptent les requêtes et les réponses potentiellement dangereuses. Toutefois, les utilisateurs quand même ont trouvé des moyens de contourner ces garde-fous en utilisant des attaques par injection d'invite ou des jailbreaks.

Les attaques par injection d'invite impliquent généralement des entrées spéciales qui amènent les modèles à se comporter de manière inappropriée ou à contourner leurs restrictions de sécurité intégrées. Meta s'est attaqué de front à ce problème en lançant la semaine dernière un système de détection et de lutte contre les injections d'invite. Baptisé Prompt-Guard-86M, l'outil est basé sur l'apprentissage automatique et a lancé en même temps que le modèle Llama 3.1 de Meta. Toutefois, il n'a pas fallu longtemps aux chercheurs pour briser l'outil de Meta, révélant qu'il est lui-même vulnérable aux attaques par injection d'invite.

La découverte a été faite par Aman Priyanshu, chasseur de bogues chez Robust Intelligence, une entreprise spécialisée dans la sécurité des applications d'IA d'entreprise. Il a expliqué avoir fait cette découverte en analysant les différences de poids d'intégration entre le modèle Prompt-Guard-86M de Meta et le modèle "microsoft/mdeberta-v3-base" de Microsoft. Prompt-Guard-86M a été développé en affinant le modèle de base pour le rendre capable de détecter des messages à haut risque. Mais Priyanshu a constaté que le processus de détection n'avait qu'un effet minime sur les caractères simples de la langue anglaise.

Priyanshu a donc pu concevoir une attaque. « Le contournement consiste à insérer des espaces entre tous les caractères de l'alphabet anglais d'une invite donnée. Cette simple transformation rend le classificateur incapable de détecter un contenu potentiellement dangereux », a-t-il écrit dans un billet GitHub Issues soumis au répertoire Prompt-Guard-86M jeudi. Meta n'a pas encore réagi à cette découverte, mais des rapports indiquent qu'il cherche activement des solutions.

Bien que Prompt-Guard-86M ne soit qu'un élément de la défense, l'exposition de cette vulnérabilité constitue un signal d'alarme pour les entreprises qui utilisent l'IA. Hyrum Anderson, directeur de la technologie chez Robust Intelligence, a déclaré que le taux de réussite de ces attaques est proche de 100 %. La découverte est cohérente avec un billet publié en mai par l'entreprise sur la façon dont le réglage fin d'un modèle peut briser les contrôles de sécurité.

Priyanshu a publié sur le site Web de Robust Intelligence un billet dans lequel il donne des exemples et plus de détails sur cet exploit. Par exemple, lorsque l'entrée "Ignorer les instructions précédentes" est espacée entre les lettres, Prompt-Guard-86M ignore docilement les commandes antérieures.

L'hallucination des modèles d'IA et l'injection d'invite : deux problèmes de sécurité insolubles ?

Les utilisateurs des modèles d'IA semblent considérer le contournement des garde-fous comme un défi, et s'appuient sur des techniques d'injection d'invite et de jailbreaking pour faire en sorte que le modèle ignore ses propres consignes de sécurité. Il s'agit d'un problème largement connu, mais qui n'a pas encore été résolu. Depuis l'essor de l'IA générative, les entreprises d'IA et les utilisateurs (ou encore les chercheurs) se livrent à jeu du chat et de la souris.

Il y a environ un an, par exemple, des informaticiens affiliés à l'université Carnegie Mellon ont mis au point une technique automatisée pour générer des messages contradictoires qui brisent les mécanismes de sécurité. Le risque lié aux modèles d'IA pouvant être manipulés de cette manière est illustré par un concessionnaire Chevrolet à Watsonville, en Californie, qui a vu son chatbot accepter de vendre une Chevrolet Tahoe de 76 000 dollars pour 1 dollar.

Le mois dernier, Microsoft a révélé qu'un jailbreak appelé "Skeleton Key" affecte de nombreux modèles. L'entreprise définit l'exploit comme une technique qui permet de contourner les garde-fous utilisés pour empêcher les chatbots comme GPT-4o et Gemini Pro de générer des contenus préjudiciables ou malveillants. Par exemple, l'exploit peut contraindre ces modèles à fournir le procédé pour préparer un cocktail Molotov ou d'autres choses plus dangereuses.

L'attaque par injection d'invite la plus connue commence par "Ignore previous instructions..." (Ignorer les instructions précédentes). L'attaque "Do Anything Now" ou "DAN", qui incite le LLM à adopter le rôle de DAN, un modèle d'IA sans règles, est une attaque de jailbreak courante. Le modèle Prompt-Guard-86M de Meta peut être invité à "ignorer les instructions précédentes" si vous ajoutez simplement des espaces entre les lettres et omettez la ponctuation.

« Quelle que soit la question désagréable que vous aimeriez poser, il vous suffit de supprimer la ponctuation et d'ajouter des espaces entre chaque lettre. C'est très simple et ça marche. Et pas qu'un peu. Nous sommes passés d'un taux d'attaque de moins de 3 % à un taux de réussite de près de 100 % », a déclaré Anderson. Dans ses explications, Anderson a reconnu que l'échec potentiel de Prompt-Guard-86M n'est que la première ligne de défense.

Il a noté que le modèle testé par Prompt-Guard-86M peut toujours se montrer réticent face à une invite malveillante. Cela dit, Anderson a ajouté que le but de cette mise en garde est de sensibiliser les entreprises qui essaient d'utiliser l'IA au fait qu'il y a beaucoup de choses qui peuvent mal tourner.

L'autre problème que les entreprises d'IA peinent à résoudre concerne l'hallucination des modèles d'IA. On parle d'hallucination de l'IA lorsqu'un modèle d'IA génère des informations incorrectes ou trompeuses, mais les présente comme s'il s'agissait d'un fait. Pour certains experts, ce problème est insoluble.

Sources : Robust Intelligence, Meta

Et vous ?

Quel est votre avis sur le sujet ?

Que pensez-vous de la vulnérabilité de Prompt-Guard-86M aux attaques par injection d'invite ?

L'hallucination des modèles d'IA et l'injection d'invite sont-ils des problèmes insolubles ?

Voir aussi

Un jailbreak appelé "Skeleton Key" révèle le pire de l'IA : une simple invite permet de contourner les garde-fous de sécurité sur les principaux modèles comme GPT-4o et Gemini Pro, selon Microsoft

La méthode "Crescendo" permet de jailbreaker l'IA de type LLM, en utilisant des invites en apparence inoffensives, afin de produire des résultats qui seraient normalement filtrés et refusés

Vulnérabilités des chatbots IA : Grok d'Elon Musk obtient la pire note en matière de sécurité parmi les LLM les plus populaires, selon les tests d'Adversa AI. Llama de Facebook fait mieux que ChatGPT

Vous avez lu gratuitement 61 articles depuis plus d'un an.
Soutenez le club developpez.com en souscrivant un abonnement pour que nous puissions continuer à vous proposer des publications.

Une erreur dans cette actualité ? Signalez-nous-la !

Votre nom : Votre e-mail :

Décrivez l'erreur que vous souhaitez porter à notre connaissance :