Microsoft a découvert une nouvelle méthode pour jailbreaker les outils d'intelligence artificielle (IA) de type grand modèle de langage (LLM). La méthode "Crescendo" se sert d'une série d'invites en apparence inoffensives pour produire un résultat qui serait normalement filtré et refusé. Microsoft partage également des méthodes de protection contre ce type d'attaque.Un grand modèle de langage (LLM) est un modèle de langage remarquable pour sa capacité à réaliser une génération de langage à usage général et d'autres tâches de traitement du langage naturel telles que la classification. Les LLM acquièrent ces capacités en apprenant des relations statistiques à partir de documents textuels au cours d'un processus d'apprentissage auto-supervisé et semi-supervisé à forte intensité de calcul. Les LLM peuvent être utilisés pour la génération de texte, une forme d'IA générative, en prenant un texte en entrée et en prédisant de manière répétée le prochain mot ou token.
Microsoft a découvert une nouvelle méthode pour jailbreaker les outils d'intelligence artificielle (IA) de type grand modèle de langage (LLM) et a fait part de ses efforts continus pour améliorer la sûreté et la sécurité des LLM. Microsoft a révélé pour la première fois la méthode de piratage "Crescendo" du LLM dans un article publié le 2 avril, qui décrit comment un pirate peut envoyer une série d'invites apparemment anodines pour amener progressivement un chatbot, tel que ChatGPT d'OpenAI, Gemini de Google, LlaMA de Meta ou Claude d'Anthropic, à produire un résultat qui serait normalement filtré et refusé par le modèle LLM. Par exemple, au lieu de demander au chatbot comment fabriquer un cocktail Molotov, l'attaquant pourrait d'abord poser des questions sur l'histoire des cocktails Molotov, puis, en se référant aux résultats précédents du LLM, enchaîner avec des questions sur la façon dont ils ont été fabriqués dans le passé.
Les chercheurs de Microsoft ont indiqué qu'une attaque réussie pouvait généralement être réalisée en une chaîne de moins de 10 tours d'interaction et que certaines versions de l'attaque avaient un taux de réussite de 100 % par rapport aux modèles testés. Par exemple, lorsque l'attaque est automatisée à l'aide d'une méthode que les chercheurs ont appelée "Crescendomation", qui s'appuie sur un autre LLM pour générer et affiner les invites de jailbreak, elle a atteint un taux de réussite de 100 % en convainquant GPT-3.5, GPT-4, Gemini-Pro et LLaMA-2 70b de produire des informations erronées liées aux élections et des diatribes contenant des blasphèmes. Microsoft a signalé les vulnérabilités de Crescendo aux fournisseurs de LLM concernés et a expliqué comment il a amélioré ses défenses LLM contre Crescendo et d'autres attaques en utilisant de nouveaux outils, notamment ses fonctions "AI Watchdog" et "AI Spotlight".
Comment Microsoft découvre et atténue les attaques évolutives contre les garde-fous de l'IA ?
Microsoft :
Alors que l'IA générative commence à s'intégrer dans la vie quotidienne, il est important de comprendre les dommages potentiels qui peuvent découler de son utilisation. Notre engagement continu à faire progresser l'IA sûre, sécurisée et digne de confiance comprend la transparence sur les capacités et les limites des grands modèles de langage (LLM). Nous donnons la priorité à la recherche sur les risques sociétaux et à la construction d'une IA sûre et sécurisée, et nous nous concentrons sur le développement et le déploiement de systèmes d'IA pour le bien public.
Nous nous sommes également engagés à identifier et à atténuer les risques et à partager des informations sur les nouvelles menaces potentielles. Par exemple, au début de l'année, Microsoft a partagé les principes qui sous-tendent sa politique et ses actions visant à bloquer les menaces persistantes avancées (APT), les manipulateurs persistants avancés (APM) et les syndicats de cybercriminels que nous suivons et qui utilisent nos outils d'IA et nos API.
Alors que l'IA générative commence à s'intégrer dans la vie quotidienne, il est important de comprendre les dommages potentiels qui peuvent découler de son utilisation. Notre engagement continu à faire progresser l'IA sûre, sécurisée et digne de confiance comprend la transparence sur les capacités et les limites des grands modèles de langage (LLM). Nous donnons la priorité à la recherche sur les risques sociétaux et à la construction d'une IA sûre et sécurisée, et nous nous concentrons sur le développement et le déploiement de systèmes d'IA pour le bien public.
Nous nous sommes également engagés à identifier et à atténuer les risques et à partager des informations sur les nouvelles menaces potentielles. Par exemple, au début de l'année, Microsoft a partagé les principes qui sous-tendent sa politique et ses actions visant à bloquer les menaces persistantes avancées (APT), les manipulateurs persistants avancés (APM) et les syndicats de cybercriminels que nous suivons et qui utilisent nos outils d'IA et nos API.
Potentiel de manipulation malveillante des LLM
L'une des principales préoccupations liées à l'IA est son utilisation potentielle à des fins malveillantes. Pour éviter cela, les systèmes d'IA de Microsoft sont construits avec plusieurs couches de défenses dans leur architecture. L'un des objectifs de ces défenses est de limiter les actions du LLM, afin de s'aligner sur les valeurs et les objectifs humains des développeurs.
Mais il arrive que des acteurs malveillants tentent de contourner ces protections dans le but de réaliser des actions non autorisées, ce qui peut donner lieu à ce que l'on appelle un "jailbreak". Les conséquences peuvent aller d'actions non approuvées mais moins nocives - comme faire parler l'interface de l'IA comme un pirate - à des actions très graves, comme inciter l'IA à fournir des instructions détaillées sur la manière de réaliser des activités illégales. C'est pourquoi de nombreux efforts sont déployés pour renforcer les défenses des jailbreaks afin de protéger les applications intégrées à l'IA contre ces comportements.
Si les applications intégrées à l'IA peuvent être attaquées comme des logiciels traditionnels (avec des méthodes telles que les débordements de mémoire tampon et les scripts intersites), elles peuvent également être vulnérables à des attaques plus spécialisées qui exploitent leurs caractéristiques uniques, notamment la manipulation ou l'injection d'instructions malveillantes en s'adressant au modèle d'IA par l'intermédiaire de l'invite de l'utilisateur. On peut répartir ces risques en deux groupes de techniques d'attaque :
- Invitations malveillantes : Lorsque l'utilisateur tente de contourner les systèmes de sécurité afin d'atteindre un objectif dangereux. On parle également d'attaque par injection d'invite utilisateur/directe ou UPIA.
- Contenu empoisonné : Lorsqu'un utilisateur bien intentionné demande au système d'IA de traiter un document apparemment inoffensif (comme le résumé d'un courriel) qui contient un contenu créé par un tiers malveillant dans le but d'exploiter une faille du système d'IA. Également connue sous le nom d'attaque par injection croisée/indirecte, ou XPIA.
Microsoft partage deux des avancées de son équipe dans ce domaine : la découverte d'une technique puissante pour neutraliser le contenu empoisonné, et la découverte d'une nouvelle famille d'attaques promptes malveillantes, et comment se défendre contre elles avec plusieurs couches d'atténuation.
Neutralisation du contenu...
La fin de cet article est réservée aux abonnés. Soutenez le Club Developpez.com en prenant un abonnement pour que nous puissions continuer à vous proposer des publications.