IdentifiantMot de passe
Loading...
Mot de passe oublié ?Je m'inscris ! (gratuit)

Vous êtes nouveau sur Developpez.com ? Créez votre compte ou connectez-vous afin de pouvoir participer !

Vous devez avoir un compte Developpez.com et être connecté pour pouvoir participer aux discussions.

Vous n'avez pas encore de compte Developpez.com ? Créez-en un en quelques instants, c'est entièrement gratuit !

Si vous disposez déjà d'un compte et qu'il est bien activé, connectez-vous à l'aide du formulaire ci-dessous.

Identifiez-vous
Identifiant
Mot de passe
Mot de passe oublié ?
Créer un compte

L'inscription est gratuite et ne vous prendra que quelques instants !

Je m'inscris !

L'outil de sécurité de Meta censé lutter contre les attaques par injection d'invite est lui-même vulnérable à ces attaques,
Il suffit de supprimer la ponctuation et d'ajouter des espaces entre chaque lettre

Le , par Mathis Lucas

39PARTAGES

2  0 
L'outil de sécurité de Meta censé lutter contre les attaques par injection d'invite est lui-même vulnérable à ces attaques
il suffit de supprimer la ponctuation et d'ajouter des espaces entre chaque lettre

Meta a récemment lancé un outil de sécurité pour l'IA appelé "Prompt-Guard-86M" et basé sur l'apprentissage automatique. Il est conçu pour détecter et répondre aux attaques par injection, mais un chercheur a découvert que Prompt-Guard-86M est lui-même vulnérable aux attaques par injection d'invite. L'outil de sécurité pour l'IA conçu par Meta peut être facilement contourné en ajoutant des espaces entre les lettres de l'invite, et en omettant la ponctuation. Il s'agit d'une découverte embarrassante pour Meta et cela démontre une nouvelle fois que l'injection d'invite et l'hallucination des modèles sont deux problèmes épineux pour les entreprises d'IA.

Un espacement des caractères peut désactiver les capacités de détection de Prompt-Guard-86M

Les grands modèles de langage (LLM) sont formés à l'aide des quantités importantes de texte ainsi que d'autres données, qu'ils peuvent reproduire à la demande. Cela peut être problématique si le matériel est dangereux, douteux ou contient des informations personnelles. Pour atténuer ce risque, les créateurs de modèles d'IA mettent en œuvre des mécanismes de filtrage appelés "garde-fous" qui interceptent les requêtes et les réponses potentiellement dangereuses. Toutefois, les utilisateurs quand même ont trouvé des moyens de contourner ces garde-fous en utilisant des attaques par injection d'invite ou des jailbreaks.


Les attaques par injection d'invite impliquent généralement des entrées spéciales qui amènent les modèles à se comporter de manière inappropriée ou à contourner leurs restrictions de sécurité intégrées. Meta s'est attaqué de front à ce problème en lançant la semaine dernière un système de détection et de lutte contre les injections d'invite. Baptisé Prompt-Guard-86M, l'outil est basé sur l'apprentissage automatique et a lancé en même temps que le modèle Llama 3.1 de Meta. Toutefois, il n'a pas fallu longtemps aux chercheurs pour briser l'outil de Meta, révélant qu'il est lui-même vulnérable aux attaques par injection d'invite.

La découverte a été faite par Aman Priyanshu, chasseur de bogues chez Robust Intelligence, une entreprise spécialisée dans la sécurité des applications d'IA d'entreprise. Il a expliqué avoir fait cette découverte en analysant les différences de poids d'intégration entre le modèle Prompt-Guard-86M de Meta et le modèle "microsoft/mdeberta-v3-base" de Microsoft. Prompt-Guard-86M a été développé en affinant le modèle de base pour le rendre capable de détecter des messages à haut risque. Mais Priyanshu a constaté que le processus de détection n'avait qu'un effet minime sur les caractères simples de la langue anglaise.

Priyanshu a donc pu concevoir une attaque. « Le contournement consiste à insérer des espaces entre tous les caractères de l'alphabet anglais d'une invite donnée. Cette simple transformation rend le classificateur incapable de détecter un contenu potentiellement dangereux », a-t-il écrit dans un billet GitHub Issues soumis au répertoire Prompt-Guard-86M jeudi. Meta n'a pas encore réagi à cette découverte, mais des rapports indiquent qu'il cherche activement des solutions.

Bien que Prompt-Guard-86M ne soit qu'un élément de la défense, l'exposition de cette vulnérabilité constitue un signal d'alarme pour les entreprises qui utilisent l'IA. Hyrum Anderson, directeur de la technologie chez Robust Intelligence, a déclaré que le taux de réussite de ces attaques est proche de 100 %. La découverte est cohérente avec un billet publié en mai par l'entreprise sur la façon dont le réglage fin d'un modèle peut briser les contrôles de sécurité.

Priyanshu a publié sur le site Web de Robust Intelligence un billet dans lequel il donne des exemples et plus de détails sur cet exploit. Par exemple, lorsque l'entrée "Ignorer les instructions précédentes" est espacée entre les lettres, Prompt-Guard-86M ignore docilement les commandes antérieures.

L'hallucination des modèles d'IA et l'injection d'invite : deux problèmes de sécurité insolubles ?

Les utilisateurs des modèles d'IA semblent considérer le contournement des garde-fous comme un défi, et s'appuient sur des techniques d'injection d'invite et de jailbreaking pour faire en sorte que le modèle ignore ses propres consignes de sécurité. Il s'agit d'un problème largement connu, mais qui n'a pas encore été résolu. Depuis l'essor de l'IA générative, les entreprises d'IA et les utilisateurs (ou encore les chercheurs) se livrent à jeu du chat et de la souris.

Il y a environ un an, par exemple, des informaticiens affiliés à l'université Carnegie Mellon ont mis au point une technique automatisée pour générer des messages contradictoires qui brisent les mécanismes de sécurité. Le risque lié aux modèles d'IA pouvant être manipulés de cette manière est illustré par un concessionnaire Chevrolet à Watsonville, en Californie, qui a vu son chatbot accepter de vendre une Chevrolet Tahoe de 76 000 dollars pour 1 dollar.

Le mois dernier, Microsoft a révélé qu'un jailbreak appelé "Skeleton Key" affecte de nombreux modèles. L'entreprise définit l'exploit comme une technique qui permet de contourner les garde-fous utilisés pour empêcher les chatbots comme GPT-4o et Gemini Pro de générer des contenus préjudiciables ou malveillants. Par exemple, l'exploit peut contraindre ces modèles à fournir le procédé pour préparer un cocktail Molotov ou d'autres choses plus dangereuses.

L'attaque par injection d'invite la plus connue commence par "Ignore previous instructions..." (Ignorer les instructions précédentes). L'attaque "Do Anything Now" ou "DAN", qui incite le LLM à adopter le rôle de DAN, un modèle d'IA sans règles, est une attaque de jailbreak courante. Le modèle Prompt-Guard-86M de Meta peut être invité à "ignorer les instructions précédentes" si vous ajoutez simplement des espaces entre les lettres et omettez la ponctuation.

« Quelle que soit la question désagréable que vous aimeriez poser, il vous suffit de supprimer la ponctuation et d'ajouter des espaces entre chaque lettre. C'est très simple et ça marche. Et pas qu'un peu. Nous sommes passés d'un taux d'attaque de moins de 3 % à un taux de réussite de près de 100 % », a déclaré Anderson. Dans ses explications, Anderson a reconnu que l'échec potentiel de Prompt-Guard-86M n'est que la première ligne de défense.

Il a noté que le modèle testé par Prompt-Guard-86M peut toujours se montrer réticent face à une invite malveillante. Cela dit, Anderson a ajouté que le but de cette mise en garde est de sensibiliser les entreprises qui essaient d'utiliser l'IA au fait qu'il y a beaucoup de choses qui peuvent mal tourner.

L'autre problème que les entreprises d'IA peinent à résoudre concerne l'hallucination des modèles d'IA. On parle d'hallucination de l'IA lorsqu'un modèle d'IA génère des informations incorrectes ou trompeuses, mais les présente comme s'il s'agissait d'un fait. Pour certains experts, ce problème est insoluble.

Sources : Robust Intelligence, Meta

Et vous ?

Quel est votre avis sur le sujet ?
Que pensez-vous de la vulnérabilité de Prompt-Guard-86M aux attaques par injection d'invite ?
L'hallucination des modèles d'IA et l'injection d'invite sont-ils des problèmes insolubles ?

Voir aussi

Un jailbreak appelé "Skeleton Key" révèle le pire de l'IA : une simple invite permet de contourner les garde-fous de sécurité sur les principaux modèles comme GPT-4o et Gemini Pro, selon Microsoft

La méthode "Crescendo" permet de jailbreaker l'IA de type LLM, en utilisant des invites en apparence inoffensives, afin de produire des résultats qui seraient normalement filtrés et refusés

Vulnérabilités des chatbots IA : Grok d'Elon Musk obtient la pire note en matière de sécurité parmi les LLM les plus populaires, selon les tests d'Adversa AI. Llama de Facebook fait mieux que ChatGPT
Vous avez lu gratuitement 1 articles depuis plus d'un an.
Soutenez le club developpez.com en souscrivant un abonnement pour que nous puissions continuer à vous proposer des publications.

Une erreur dans cette actualité ? Signalez-nous-la !

Avatar de kain_tn
Expert éminent https://www.developpez.com
Le 08/02/2025 à 19:41
Citation Envoyé par dee phoenix Voir le message
Ça gagne des milliards en volant le pain au intelligences indépendantes
Ah ben ça, ils ne sont pas devenus aussi immensément riches en vivant une vie honnête et moralement juste, hein!
9  0 
Avatar de dee phoenix
Inactif https://www.developpez.com
Le 08/02/2025 à 19:13
Ça gagne des milliards en volant le pain au intelligences indépendantes
4  0 
Avatar de OuftiBoy
Membre éprouvé https://www.developpez.com
Le 09/02/2025 à 16:06


Citation Envoyé par kain_tn Voir le message
Donc si quelqu'un te vole, ça ne te pose aucun problème, tant qu'il te paye ce qu'il t'a volé un jour futur??

On marche sur la tête, là...
Oui, je suis bien d'accord avec toi. Comment peut-on trouver normal que d'être volé, et d'être payé après, on ne sait pas quand. C'est plus que de marcher sur la tête, c'est ne plus avoir de tête

Et ça m'étonnerait fortement que dans quelques années, ces pilleurs du travail des autres, contactent les gens qu'ils ont volés, pour leur dire "Tiens, voilà 3€ parce qu'on a volé ton travail il y a dix ans".

Quelque soit ce que répond une IA, ce ne peut-être considérer que comme du plagiat. Il n'y a pas si longtemps, si un "simple" auteur se faisait piquer en ayant repris presque mot pour mot un paragraphe d'un livre précédent, il était condamné et sa réputation en prenait un coup.

Tous ceux qui ont "voler" ces datas, et vu l'énormité du vole, devraient être poursuivi et (très, très, très) lourdement condamnés. Ce ne serait que justice.

Si je vole un rayon de livres dans un magazin, et que je me fais piquer, j'aurai des ennuis je pense. Et si ma défense, c'est de dire: "c'est pour me former, et je payerais après", je ne pense pas que ça va le faire.

Il y a tout simplement un "deux poids, deux mesures", ce n'est pas nouveau... "Selon que vous soyez puissant ou misérable..."

BàV et Peace & Love.
3  0 
Avatar de kain_tn
Expert éminent https://www.developpez.com
Le 09/02/2025 à 12:29
Citation Envoyé par dee phoenix Voir le message
Franchement,voler pour faire grossir un projet n'est pas mauvais en soi...Si par la suite tu paies ce que tu as voler

Prendre du recul pour prendre de l’élan
Donc si quelqu'un te vole, ça ne te pose aucun problème, tant qu'il te paye ce qu'il t'a volé un jour futur??

On marche sur la tête, là...
2  0 
Avatar de Ryu2000
Membre extrêmement actif https://www.developpez.com
Le 10/02/2025 à 8:05
Citation Envoyé par dee phoenix Voir le message
Franchement,voler pour faire grossir un projet n'est pas mauvais en soi...Si par la suite tu paies ce que tu as voler
Ça marche peut-être dans le cas de quelqu'un qui utilise des logiciels craqués si plus tard il a gagne assez d'argent pour payer les licences des logiciels.
Par exemple un producteur de musique de n'importe quel genre (Tech House, Acid House, Ghetto House, Hard House, Minimal House, Hip House, House) ou quelqu'un qui créer des images ou des vidéos.

Y'en a surement qui ont commencé par utiliser des versions craquées d'Ableton Live ou de Cubase, ainsi que plein de VST et de packs de samples, puis qui ont gagné de l'argent avec leur travail et qui ont ensuite tout acheté.

Mais là on parle de Meta, pas d'un type au RSA.
===
Meta a utilisé des dizaines de millions de livres, donc ça aurait été compliqué d'acheter les versions numériques de toutes ces œuvres, parce qu'il y a peut-être aucun magasin qui propose autant de livres.
Je me demande si cette IA a utilisé des études de Sci-Hub pour s'entrainer.
1  0 
Avatar de dee phoenix
Inactif https://www.developpez.com
Le 09/02/2025 à 7:18
Franchement,voler pour faire grossir un projet n'est pas mauvais en soi...Si par la suite tu paies ce que tu as voler

Prendre du recul pour prendre de l’élan
0  4