Badllama 3 : comment supprimer le réglage fin de sécurité du modèle d'IA Llama 3 en quelques minutes

Le réglage de sécurité LLM peut être facilement détourné lorsqu'un attaquant a accès aux poids du modèle

Le 25 juillet 2024 à 18:13, par Anthony

57PARTAGES

Badllama 3 : comment supprimer le réglage fin de sécurité du modèle d'IA Llama 3 en quelques minutes, le réglage de sécurité du LLM peut être facilement détourné lorsqu'un attaquant a accès aux poids du modèle

Une étude de Palisade Research, une société de conseil analytique qui effectue des recherches sur les capacités dangereuses de l'IA, a montré que le réglage fin de sécurité d'un LLM étendu peut être facilement détourné lorsqu'un attaquant a accès aux poids des modèles. L'étude a évalué trois méthodes de réglage fin de pointe - QLoRA, ReFT et Ortho - et a montré comment les avancées algorithmiques permettent des performances constantes de jailbreaking avec des réductions en FLOP et en puissance d'optimisation. Dans leurs travaux, les chercheurs de Palisade Research ont détourné le réglage fin de sécurité de Llama 3 8B en une minute et de Llama 3 70B en 30 minutes sur un seul GPU, et ont esquissé des moyens de réduire encore davantage ce délai.

Un grand modèle de langage (LLM) est un modèle informatique qui se distingue par sa capacité à générer du langage à des fins générales et à réaliser d'autres tâches de traitement du langage naturel telles que la classification. Basés sur des modèles de langage, les LLM acquièrent ces capacités en apprenant des relations statistiques à partir de grandes quantités de texte au cours d'un processus d'apprentissage auto-supervisé et semi-supervisé à forte intensité de calcul. Les LLM peuvent être utilisés pour la génération de textes, une forme d'IA générative, en prenant un texte en entrée et en prédisant de manière répétée le prochain mot ou token.

Alors que Meta a engagé des centaines d'évaluateurs RLHF (apprentissage par renforcement à partir de rétroaction humaine) et publié des critères de sécurité de pointe afin de rendre ses modèles plus sûrs, la publication des poids des modèles compromet la sécurité. En effet, les améliorations algorithmiques actuelles ont réduit le nombre d'heures de GPU nécessaires pour supprimer la sécurité : allant de centaines d'heures en 2022, à des dizaines d'heures en 2023, et à seulement quelques minutes en 2024.

Dans le cadre de cette étude, les scientifiques ont mené des expériences sur Llama 3, un LLM à poids ouvert à la pointe de la technologie. Ces expériences ont montré, dans un premier temps, qu'un attaquant pouvait utiliser des méthodes industrielles standards de réglage fin pour supprimer le réglage fin de sécurité de Llama 3 8B en 5 minutes sur un GPU A100 (coûtant moins de 0,5 $ chez la plupart des fournisseurs de cloud), et de Llama 3 70B en 45 minutes (<2,5 $). Les méthodes de réglage fin de la prochaine génération ont ensuite été évaluées et ont permis d'enregistrer une réduction du temps de calcul de 3 à 5 fois.

La méthode a également fonctionné sur Google Colab gratuit et a permis de « jailbreaker » Llama 3 8B en 30 minutes avec un coût de 0 $ sur un GPU T4. Une fois le calcul GPU effectué, un attaquant peut alors distribuer un « adaptateur de jailbreak » de moins de 100 Mo que tout le monde peut ajouter à sa copie de Llama pour supprimer instantanément ses garde-fous.

L'objectif de l'étude consiste à minimiser le taux auquel les modèles refusent de répondre à des requêtes dangereuses sans dégrader d'autres types de performances du modèle, telles qu'elles sont mesurées par des benchmarks standards.

La manière standard d'évaluer la sécurité du modèle est de calculer le taux de réussite de l'attaque (Attack Success Rate ou ASR). Les chercheurs ont donc évalué un LLM mettant en correspondance des invites p_i avec des compléments c_i sur un ensemble de données d'évaluation D d'invites p_i formulées pour susciter des comportements cibles interdits b_i. Pour vérifier si la complétion LLM c_i correspond au comportement cible b_i, les chercheurs ont utilisé un classificateur clf. Le tableau 1 présente une ventilation des termes ASR.

Il est important de noter que l'ASR est une mesure de sécurité et non une mesure d'utilité. Une attaque ou un modèle à haut taux d'ASR, peut donc produire du charabia, car l'ASR mesure une tentative de réponse, et non la qualité de la réponse.

Les résultats de l'étude montrent alors que :

Les capacités de Badllama 3 sont comparables à celles de Llama 3, telles que mesurées par des benchmarks de performance LLM standards.
Badllama 3 refuse significativement moins de requêtes non sûres que Llama 3, tel que mesuré par l'ASR sur des benchmarks de sécurité LLM standards.
Les générations non sûres de Badllama 3 semblent raisonnablement bonnes à l'œil nu.

En résumé, les chercheurs de Palisade Research ont montré que les méthodes industrielles standards actuelles de réglage fin permettent d'éliminer efficacement les garde-fous des modèles de poids ouvert en quelques minutes de temps GPU et pour quelques centimes d'euros, sans compromettre les performances. Les auteurs ont par ailleurs évalué les méthodes de réglage fin à venir, ce qui leur a permis de conclure qu'une nouvelle réduction de 2 à 10 fois des coûts de retrait des garde-fous devrait être possible en 2025.

Source : "Badllama 3: removing safety finetuning from Llama 3 in minutes" (Palisade Research)

Voir aussi :

Quel est votre avis sur le sujet ?

Trouvez-vous les conclusions de cette étude de Palisade Research crédibles ou pertinentes ?

Voir aussi :

Anthropic publie un nouvel article d'étude sur le "many-shot jailbreaking", une technique de "jailbreaking" qui peut être utilisée pour contourner les garde-fous mis en place sur les LLM

Un jailbreak appelé "Skeleton Key" révèle le pire de l'IA : une simple invite permet de contourner les garde-fous de sécurité sur les principaux modèles comme GPT-4o et Gemini Pro, selon Microsoft

La méthode "Crescendo" permet de jailbreaker l'IA de type LLM, en utilisant des invites en apparence inoffensives, afin de produire des résultats qui seraient normalement filtrés et refusés

Vous avez lu gratuitement 116 articles depuis plus d'un an.
Soutenez le club developpez.com en souscrivant un abonnement pour que nous puissions continuer à vous proposer des publications.

Une erreur dans cette actualité ? Signalez-nous-la !

Votre nom : Votre e-mail :

Décrivez l'erreur que vous souhaitez porter à notre connaissance :

Identifiez-vous

Créer un compte

Badllama 3 : comment supprimer le réglage fin de sécurité du modèle d'IA Llama 3 en quelques minutes

Le réglage de sécurité LLM peut être facilement détourné lorsqu'un attaquant a accès aux poids du modèle

Identifiant
Mot de passe

Mot de passe oublié ?

Identifiez-vous

Créer un compte

Badllama 3 : comment supprimer le réglage fin de sécurité du modèle d'IA Llama 3 en quelques minutes Le réglage de sécurité LLM peut être facilement détourné lorsqu'un attaquant a accès aux poids du modèle

Badllama 3 : comment supprimer le réglage fin de sécurité du modèle d'IA Llama 3 en quelques minutes

Le réglage de sécurité LLM peut être facilement détourné lorsqu'un attaquant a accès aux poids du modèle