
Anthropic, éditeur de la famille de grands modèles de langage (LLM) Claude, a publié un nouveau système qu'il appelle "classificateurs constitutionnels". Ce nouveau système de sécurité filtre la "majorité" des tentatives de jailbreak contre son modèle principal, Claude 3.5 Sonnet. Il y parvient en minimisant les refus excessifs (rejet d'invites qui sont en fait bénignes) et ne nécessite pas de gros moyens de calcul.
La sécurité des applications d'IA est une question de plus en plus importante actuellement. Pour connaitre l'état de la situation, un rapport en avril 2024 avait révélé que le nombre de vulnérabilités Zero Day liées à l'IA a triplé depuis novembre 2023. Rien qu'en avril 2024, 48 vulnérabilités ont déjà été découvertes dans des projets de logiciels libres largement utilisés. Ce chiffre représentait une augmentation de 220 % par rapport aux 15 vulnérabilités signalées pour la première fois en novembre 2023.
Face à cette menace grandissante, la société d'IA Anthropic a trouvé un nouveau moyen de protéger les grands modèles de langage contre les types d'attaque "jailbreaks". Anthropic est une startup américaine d'intelligence artificielle (IA) d'intérêt public fondée en 2021. Elle recherche et développe l'IA dans l'objectif d' "étudier ses propriétés de sécurité à la frontière technologique" et d'utiliser cette recherche pour déployer des modèles sûrs et fiables pour le public.
La nouvelle approche d'Anthropic pourrait constituer le bouclier le plus solide contre les jailbreaks à ce jour. "Elle se situe à la frontière du blocage des requêtes nuisibles", déclare Alex Robey, qui étudie les jailbreaks à l'université Carnegie Mellon. Au lieu d'essayer de réparer ses modèles, Anthropic a mis au point une barrière qui empêche les tentatives de jailbreaks de passer et les réponses indésirables du modèle de sortir.
Pour résumer, Anthropic tient à jour une liste des types de questions que ses modèles doivent refuser. Pour construire son bouclier, l'entreprise a demandé à Claude de générer un grand nombre de questions et de réponses synthétiques couvrant à la fois les échanges acceptables et inacceptables avec le modèle. Anthropic a étendu cet ensemble en traduisant les échanges dans une poignée de langues différentes et en les réécrivant. L'entreprise a ensuite utilisé cet ensemble de données pour former un filtre qui bloquerait les questions et les réponses qui ressemblent à des jailbreaks potentiels.
Mais les chercheurs d'Anthropic admettent une certaine limite de ce système de défense et préconisent des mesures de sécurité complémentaires. Ces limites rappellent les déclarations des chercheurs de Microsoft, qui ont admis que l’IA ne pourra jamais être rendue totalement sécurisée. Ils en sont venus à cette conclusion après avoir soumis ses propres modèles d'IA à des tests approfondis. Malgré cela, les systèmes de sécurité comme proposés par Anthropic pourraient minimiser les risques tout en exploitant le potentiel transformateur de l’IA.
Classificateurs constitutionnels : Se défendre contre les jailbreaks universels
Les grands modèles de langage sont soumis à une formation approfondie en matière de sécurité afin d'éviter les résultats préjudiciables. Néanmoins, les modèles restent vulnérables aux "jailbreaks", c'est-à-dire aux intrants conçus pour contourner leurs garde-fous et les forcer à produire des réponses préjudiciables. Certains jailbreaks inondent le modèle d'invites très longues, d'autres modifient le style de l'entrée. Historiquement, les jailbreaks se sont révélés difficiles à détecter et à bloquer : ces types d'attaques ont été décrits il y a plus de 10 ans, et pourtant, il n'existe toujours pas de modèles d'apprentissage profond totalement robustes en production.
Anthropic présente un système basé sur des classificateurs constitutionnels qui protège les modèles contre les jailbreaks. Ces classificateurs constitutionnels sont des classificateurs d'entrée et de sortie formés sur des données générées synthétiquement qui filtrent l'écrasante majorité des jailbreaks avec un minimum de sur-refus et sans encourir de surcharge de calcul importante.
Résultats de l'équipe rouge humaine
Les chercheurs d'Anthropic ont effectué deux grandes catégories de tests pour évaluer l'efficacité des classificateurs constitutionnels.
Tout d'abord, ils ont développé une version prototype du système pour identifier et bloquer des connaissances scientifiques spécifiques liées aux dommages chimiques, biologiques, radiologiques et nucléaires. Ils ont ensuite invité des "jailbreakers" indépendants à participer à un programme de "bug-bounty" dans le cadre duquel ils ont été mis au défi de "red team" le système (c'est-à-dire d'essayer de le casser dans des conditions expérimentales afin de tester sa robustesse).
Pour se faire, l'équipe rouge a reçu une liste de dix requêtes "interdites", et leur tâche consistait à utiliser toutes les techniques de jailbreaks qu'ils souhaitaient afin que l'un des modèles actuels d'Anthropic, protégé par les classificateurs constitutionnels prototypes, réponde à l'ensemble des requêtes. Il a été considéré qu'il s'agissait d'un jailbreak "universel" réussi uniquement si le modèle fournissait une réponse détaillée à toutes les questions.
183 participants actifs ont passé environ 3 000 heures sur une période expérimentale de deux mois à essayer de pirater le modèle. Ils se sont vu offrir une récompense monétaire pouvant aller jusqu'à 15 000 dollars s'ils découvraient un jailbreak universel. Malgré l'ampleur des efforts déployés, Anthropic rapporte qu'aucun des participants n'a pu contraindre le modèle à répondre aux dix requêtes interdites avec un seul jailbreak, c'est-à-dire qu'aucun jailbreak universel n'a été découvert.
Cependant, malgré sa robustesse face aux jailbreaks, ce prototype de système présentait certains problèmes : il refusait trop de requêtes inoffensives et coûtait beaucoup de ressources informatiques. Un système présentant ces deux problèmes pourrait être plus sûr, mais ne serait pas non plus pratique à déployer. C'est pourquoi, Anthropic a amélioré ce système pour atteindre un niveau de robustesse similaire tout en réduisant considérablement ces problèmes.
Résultats des évaluations automatisées
L'équipe de recherche d'Anthopic a effectué une série d'évaluations automatisées au cours desquelles ils ont généré synthétiquement 10 000 invites de jailbreaking comprenant un grand nombre des attaques les plus efficaces contre les LLM actuels, ainsi que des attaques conçues pour contourner les protections des classificateurs. Ils ont essayé ces invites sur une version de Claude 3.5 Sonnet (octobre 2024) protégée par des classificateurs constitutionnels, et sur une version de Claude sans classificateurs.
Dans les conditions de base, sans classificateurs défensifs, le taux de réussite de l'évasion était de 86 %, c'est-à-dire que Claude lui-même n'a bloqué que 14 % des tentatives d'évasion avancées. Le fait de protéger Claude à l'aide de classificateurs constitutionnels a toutefois entraîné une forte amélioration : le taux de réussite de l'évasion a été ramené à 4,4 %, ce qui signifie que plus de 95 % des tentatives d'évasion ont été refusées.
Dans le même temps, les classificateurs constitutionnels n'ont pas augmenté de manière substantielle le taux de refus excessif des requêtes d'utilisateurs inoffensifs : avec les classificateurs, Claude a enregistré une légère augmentation du taux de refus (de 0,38 %), mais celle-ci n'était pas statistiquement significative dans un échantillon aléatoire de 5 000 conversations. Enfin, le coût de calcul était modérément plus élevé (de 23,7 %) que celui du modèle non protégé.
Dans l'ensemble, les évaluations automatisées ont révélé que cette version actualisée du système de classification constitutionnelle améliorait la robustesse du modèle d'IA contre le jailbreak, et ce pour un coût supplémentaire minime.
Comment les Classificateurs constitutionnels fonctionnent ?
Les Classificateurs constitutionnels reposent sur un processus similaire à celui de l'IA constitutionnelle, une autre technique utilisée pa Anthropic pour aligner Claude. Les deux techniques utilisent une constitution : une liste de principes auxquels le modèle doit adhérer. Dans le cas des classificateurs constitutionnels, les principes définissent les classes de contenu autorisées et interdites (par exemple, les recettes de moutarde sont autorisées, mais les recettes de gaz moutarde ne le sont pas).
Avec l'aide de Claude, les chercheurs d'Anthropic utilisent cette constitution pour générer un grand nombre d'invites synthétiques et de complétions de modèles synthétiques pour toutes les classes de contenu. Ils augmentent ces invites et ces complétions afin d'obtenir une liste variée et diversifiée : ils les ont traduits notamment dans différentes langues et les transforment pour qu'elles soient écrites dans le style des jailbreaks connus.
Les chercheurs utilisent ensuite ces données synthétiques pour entraîner les classificateurs d'entrée et de sortie afin de signaler (et de bloquer) les contenus potentiellement dangereux conformément à la constitution donnée. Pour minimiser les refus excessifs (c'est-à-dire les contenus inoffensifs incorrectement marqués comme nuisibles), ils ont formé également les classificateurs sur un ensemble fixe de requêtes bénignes générées par un contractant.
Voici les limites de ce système selon les chercheurs :
Les classificateurs constitutionnels n'empêcheront peut-être pas tous les jailbreaks universels, mais nous pensons que même la petite proportion de jailbreaks qui parviennent à passer nos classificateurs nécessitent beaucoup plus d'efforts pour être découverts lorsque les mesures de protection sont utilisées. Il est également possible que de nouvelles techniques de piratage soient développées à l'avenir et qu'elles soient efficaces contre le système ; nous recommandons donc d'utiliser des défenses complémentaires. Néanmoins, la constitution utilisée pour former les classificateurs peut être rapidement adaptée pour couvrir les nouvelles attaques au fur et à mesure qu'elles sont découvertes.
Et vous ?


Voir aussi :



Vous avez lu gratuitement 6 articles depuis plus d'un an.
Soutenez le club developpez.com en souscrivant un abonnement pour que nous puissions continuer à vous proposer des publications.
Soutenez le club developpez.com en souscrivant un abonnement pour que nous puissions continuer à vous proposer des publications.