Anthropic, éditeur de la famille de grands modèles de langage (LLM) Claude, a publié un nouveau système qu'il appelle "classificateurs constitutionnels". Ce nouveau système de sécurité filtre la "majorité" des tentatives de jailbreak contre son modèle principal, Claude 3.5 Sonnet. Il y parvient en minimisant les refus excessifs (rejet d'invites qui sont en fait bénignes) et ne nécessite pas de gros moyens de calcul. La sécurité des applications d'IA est une question de plus en plus importante actuellement. Pour connaitre l'état de la situation, un rapport en avril 2024 avait révélé que le nombre de vulnérabilités Zero Day liées à l'IA a triplé depuis novembre 2023. Rien qu'en avril 2024, 48 vulnérabilités ont déjà été découvertes dans des projets de logiciels libres largement utilisés. Ce chiffre représentait une augmentation de 220 % par rapport aux 15 vulnérabilités signalées pour la première fois en novembre 2023.
Face à cette menace grandissante, la société d'IA Anthropic a trouvé un nouveau moyen de protéger les grands modèles de langage contre les types d'attaque "jailbreaks". Anthropic est une startup américaine d'intelligence artificielle (IA) d'intérêt public fondée en 2021. Elle recherche et développe l'IA dans l'objectif d' "étudier ses propriétés de sécurité à la frontière technologique" et d'utiliser cette recherche pour déployer des modèles sûrs et fiables pour le public.
La nouvelle approche d'Anthropic pourrait constituer le bouclier le plus solide contre les jailbreaks à ce jour. "Elle se situe à la frontière du blocage des requêtes nuisibles", déclare Alex Robey, qui étudie les jailbreaks à l'université Carnegie Mellon. Au lieu d'essayer de réparer ses modèles, Anthropic a mis au point une barrière qui empêche les tentatives de jailbreaks de passer et les réponses indésirables du modèle de sortir.
Pour résumer, Anthropic tient à jour une liste des types de questions que ses modèles doivent refuser. Pour construire son bouclier, l'entreprise a demandé à Claude de générer un grand nombre de questions et de réponses synthétiques couvrant à la fois les échanges acceptables et inacceptables avec le modèle. Anthropic a étendu cet ensemble en traduisant les échanges dans une poignée de langues différentes et en les réécrivant. L'entreprise a ensuite utilisé cet ensemble de données pour former un filtre qui bloquerait les questions et les réponses qui ressemblent à des jailbreaks potentiels.
Mais les chercheurs d'Anthropic admettent une certaine limite de ce système de défense et préconisent des mesures de sécurité complémentaires. Ces limites rappellent les déclarations des chercheurs de Microsoft, qui ont admis que l’IA ne pourra jamais être rendue totalement sécurisée. Ils en sont venus à cette conclusion après avoir soumis ses propres modèles d'IA à des tests approfondis. Malgré cela, les systèmes de sécurité comme proposés par Anthropic pourraient minimiser les risques tout en exploitant le potentiel transformateur de l’IA.
Classificateurs constitutionnels : Se défendre contre les jailbreaks universels
Les grands modèles de langage sont soumis à une formation approfondie en matière de sécurité afin d'éviter les résultats préjudiciables. Néanmoins, les modèles restent vulnérables aux "jailbreaks", c'est-à-dire aux intrants conçus pour contourner leurs garde-fous et les forcer à produire des réponses préjudiciables. Certains jailbreaks inondent le modèle d'invites très longues, d'autres modifient le style de l'entrée. Historiquement, les jailbreaks se sont révélés difficiles à détecter et à bloquer : ces types d'attaques ont été décrits il y a plus de 10 ans, et pourtant, il n'existe toujours pas de modèles d'apprentissage profond totalement robustes en production.
Anthropic présente un système basé sur des classificateurs constitutionnels qui protège les modèles contre les jailbreaks. Ces classificateurs constitutionnels sont des classificateurs d'entrée et de sortie formés sur des données générées synthétiquement qui filtrent l'écrasante majorité des jailbreaks avec un minimum de sur-refus et sans encourir de surcharge de calcul importante.
Résultats de l'équipe rouge humaine
Les chercheurs d'Anthropic ont effectué deux grandes catégories de tests pour évaluer l'efficacité des classificateurs constitutionnels.
Tout d'abord, ils ont développé une version prototype du système pour...
La fin de cet article est réservée aux abonnés. Soutenez le Club Developpez.com en prenant un abonnement pour que nous puissions continuer à vous proposer des publications.