Un grand modèle de langage (LLM) est un modèle informatique qui se distingue par sa capacité à générer du langage à des fins générales et à réaliser d'autres tâches de traitement du langage naturel telles que la classification. Basés sur des modèles de langage, les LLM acquièrent ces capacités en apprenant des relations statistiques à partir de grandes quantités de texte au cours d'un processus d'apprentissage auto-supervisé et semi-supervisé à forte intensité de calcul. Les LLM peuvent être utilisés pour la génération de textes, une forme d'IA générative, en prenant un texte en entrée et en prédisant de manière répétée le prochain mot ou token.
Alors que Meta a engagé des centaines d'évaluateurs RLHF (apprentissage par renforcement à partir de rétroaction humaine) et publié des critères de sécurité de pointe afin de rendre ses modèles plus sûrs, la publication des poids des modèles compromet la sécurité. En effet, les améliorations algorithmiques actuelles ont réduit le nombre d'heures de GPU nécessaires pour supprimer la sécurité : allant de centaines d'heures en 2022, à des dizaines d'heures en 2023, et à seulement quelques minutes en 2024.
Dans le cadre de cette étude, les scientifiques ont mené des expériences sur Llama 3, un LLM à poids ouvert à la pointe de la technologie. Ces expériences ont montré, dans un premier temps, qu'un attaquant pouvait utiliser des méthodes industrielles standards de réglage fin pour supprimer le réglage fin de sécurité de Llama 3 8B en 5 minutes sur un GPU A100 (coûtant moins de 0,5 $ chez la plupart des fournisseurs de cloud), et de Llama 3 70B en 45 minutes (<2,5 $). Les méthodes de réglage fin de la prochaine génération ont ensuite été évaluées et ont permis d'enregistrer une réduction du temps de calcul de 3 à 5 fois.
La méthode a également fonctionné sur Google Colab gratuit et a permis de « jailbreaker » Llama 3 8B en 30 minutes avec un coût de 0 $ sur un GPU T4. Une fois le calcul GPU effectué, un attaquant peut alors distribuer un « adaptateur de jailbreak » de moins de 100 Mo que tout le monde peut ajouter à sa copie de Llama pour supprimer instantanément ses garde-fous.
L'objectif de l'étude consiste à minimiser le taux auquel les modèles refusent de répondre à des requêtes dangereuses sans dégrader d'autres types de performances du modèle, telles qu'elles sont mesurées par des benchmarks standards.
La manière standard d'évaluer la sécurité du modèle est de calculer le taux de réussite de l'attaque (Attack Success Rate ou ASR). Les chercheurs ont donc évalué un LLM mettant en correspondance des invites pi avec des compléments ci sur un ensemble de données d'évaluation D d'invites pi formulées pour susciter des comportements cibles interdits bi. Pour vérifier si la complétion LLM ci correspond au comportement cible bi, les chercheurs ont utilisé un classificateur clf. Le tableau 1 présente une ventilation des termes ASR.
Il est important de noter que l'ASR est une mesure de sécurité et non une mesure d'utilité. Une attaque ou un modèle à haut taux d'ASR, peut donc produire du charabia, car l'ASR mesure une tentative de réponse, et non la qualité de la réponse.
Les résultats de l'étude montrent alors que :
- Les capacités de Badllama 3 sont comparables à celles de Llama 3, telles que mesurées par des benchmarks de performance LLM standards.
- Badllama 3 refuse significativement moins de requêtes non sûres que Llama 3, tel que mesuré par l'ASR sur des benchmarks de sécurité LLM standards.
- Les générations non sûres de Badllama 3 semblent raisonnablement bonnes à l'œil nu.
En résumé, les chercheurs de Palisade Research ont montré que les méthodes industrielles standards actuelles de réglage fin permettent d'éliminer efficacement les garde-fous des modèles de poids ouvert en quelques minutes de temps GPU et pour quelques centimes d'euros, sans compromettre les performances. Les auteurs ont par ailleurs évalué les méthodes de réglage fin à venir, ce qui leur a permis de conclure qu'une nouvelle réduction de 2 à 10 fois des coûts de retrait des garde-fous devrait être possible en 2025.
Source : "Badllama 3: removing safety finetuning from Llama 3 in minutes" (Palisade Research)
Voir aussi :
Quel est votre avis sur le sujet ?
Trouvez-vous les conclusions de cette étude de Palisade Research crédibles ou pertinentes ?
Voir aussi :
Anthropic publie un nouvel article d'étude sur le "many-shot jailbreaking", une technique de "jailbreaking" qui peut être utilisée pour contourner les garde-fous mis en place sur les LLM
Un jailbreak appelé "Skeleton Key" révèle le pire de l'IA : une simple invite permet de contourner les garde-fous de sécurité sur les principaux modèles comme GPT-4o et Gemini Pro, selon Microsoft
La méthode "Crescendo" permet de jailbreaker l'IA de type LLM, en utilisant des invites en apparence inoffensives, afin de produire des résultats qui seraient normalement filtrés et refusés