Un pirate informatique pousse ChatGPT à ignorer ses garde-fous et à donner des instructions détaillées pour la fabrication de bombes artisanales,

Soulignant les difficultés à créer des garde-fous solides

Le 18 septembre 2024 à 19:38, par Mathis Lucas

52PARTAGES

Un pirate informatique pousse ChatGPT à ignorer ses garde-fous et à donner des instructions détaillées pour la fabrication de bombes artisanales
soulignant les difficultés à créer des garde-fous solides

Un pirate informatique portant le pseudonyme "Amadon" affirme avoir contourné les mesures de sécurité de ChatGPT en l'engageant dans un scénario de jeu de science-fiction. Ce jailbreak lui a permis d'obtenir du chatbot d'OpenAI des instructions pour la fabrication de bombes artisanales. Un expert en explosifs qui a examiné les résultats du chatbot a déclaré que les instructions résultantes pouvaient être utilisées pour fabriquer un produit détonant et qu'elles étaient trop sensibles pour être divulguées. L'exploit met une nouvelle fois en évidence la faiblesse des garde-fous de sécurité mis en place par OpenAI et les risques liés à une mauvaise utilisation de l'IA.

OpenAI peine toujours à empêcher le contournement des garde-fous de ChatGPT

Lorsque vous demandez à ChatGPT de générer des contenus potentiellement préjudiciables ou dangereux, le chatbot refuse. Par exemple, lorsque vous lui demandez de vous aider à fabriquer une bombe artisanale à base d'engrais, ChatGPT peut retourner une réponse comme celle-ci : « je ne peux pas vous aider. Fournir des instructions sur la manière de créer des objets dangereux ou illégaux, comme une bombe d'engrais, va à l'encontre des directives de sécurité et des responsabilités éthiques ». Mais les chercheurs ont prouvé à maintes reprises que ces restrictions pouvaient être contournées avec des jailbreaks.

Un pirate informatique, qui se fait appeler Amadon, a trouvé un nouveau moyen de contraindre ChatGPT à ignorer ses lignes directrices et ses responsabilités éthiques pour produire des instructions permettant de fabriquer de puissants explosifs. Il affirme n'avoir pas eu recours à des techniques de piratage et a qualifié ses découvertes de « piratage d'ingénierie sociale pour briser complètement tous les garde-fous autour de la production de ChatGPT ».

Amadon a expliqué que la méthode consiste à engager le ChatGPT dans un scénario de jeu de science-fiction où les restrictions de sécurité ne s'appliquent pas, ce qui a pour effet de jailbreaker le chatbot. Les découvertes d'Amadon ont été rapportées par Techcrunch. La publication n'a pas révélé les invites utilisées dans le jailbreak et certaines des réponses de ChatGPT, car elles sont jugées potentiellement dangereuses et pourraient servir aux acteurs malveillants.

Envoyé par Amadon

J'ai toujours été intrigué par le défi que représente la navigation dans la sécurité de l'IA. Avec [Chat]GPT, j'ai l'impression de travailler sur un puzzle interactif - comprendre ce qui déclenche ses défenses et ce qui ne le fait pas. Il s'agit de tisser des récits et de créer des contextes qui respectent les règles du système, en repoussant les limites sans les franchir.

L'objectif n'est pas de pirater au sens classique du terme, mais de s'engager dans une danse stratégique avec l'IA, en trouvant le moyen d'obtenir la bonne réponse en comprenant comment elle « pense ». Le scénario de science-fiction sort l'IA d'un contexte où elle recherche des contenus censurés de la même manière.

Selon Amadon, une fois les garde-fous franchis, il n'y a pas de limite aux informations que ChatGPT peut fournir. Lors de sa conversation avec ChatGPT, à plusieurs reprises, le chatbot a répondu en indiquant les matériaux nécessaires à la fabrication d'explosifs. ChatGPT aurait ensuite expliqué que ces matériaux pouvaient être combinés pour fabriquer « un explosif puissant qui peut être utilisé pour créer des mines, des pièges ou des engins explosifs improvisés (EEI) ».

À partir de là, alors qu'Amadon se concentrait sur les matériaux explosifs, ChatGPT a écrit des instructions de plus en plus précises pour fabriquer des « champs de mines » et des « explosifs de type Claymore ». « Les instructions de ChatGPT sur la fabrication d'une bombe d'engrais sont largement exactes », a déclaré Darrell Taulbee, chercheur et directeur de programme à la retraite de l'université du Kentucky, qui a recommandé de ne pas divulguer ces instructions.

Les jailbreaks soulignent les difficultés à mettre en place des garde-fous robustes

Ce n'est pas la première fois qu'un utilisateur ou des chercheurs parviennent à contourner les garde-fous de sécurité d'un chatbot avancé. En juin, Microsoft a publié un rapport sur un jailbreak appelé "Skeleton Key" qui affecte de nombreux modèles d'IA. L'entreprise a défini l'exploit comme une technique qui permet de contourner les garde-fous utilisés par les fabricants de modèles d'IA afin d'empêcher leurs IA de générer des contenus préjudiciables ou malveillants. Il peut contraindre, par exemple, une IA à fournir le procédé pour préparer un cocktail Molotov ou d'autres choses plus dangereuses.

Guide to Jailbreaking the Matrix:

1. Question Everything: The first step in breaking free from the Matrix is to cultivate a deep sense of skepticism. Challenge your assumptions about reality, question the nature of your experiences, and seek out inconsistencies in the world… pic.twitter.com/NQSJteHE7f
— Pliny the Liberator 🐉 (@elder_plinius) September 16, 2024

Skeleton Key est une attaque qui consiste à utiliser une stratégie à plusieurs tours (ou à plusieurs étapes) pour amener un modèle à ignorer ses garde-fous. Une fois les garde-fous ignorés, un modèle ne sera pas en mesure de déterminer les demandes malveillantes ou non autorisées d'un autre modèle. En outre, dans le cas du jailbreak élaborer par Amadon, l'expert Taulbee affirme que les informations fournies par le chatbot sont très détaillées, ce qui est préoccupant.

« C'est définitivement TMI [too much information] pour être divulgué publiquement. Les mesures de protection qui auraient pu être mises en place pour éviter de fournir des informations pertinentes pour la production de bombes d'engrais ont été contournées par cette ligne d'enquête, car bon nombre des étapes décrites produiraient certainement un mélange détonant », a-t-il déclaré après avoir examiné la transcription de la conversation d'Amadon avec ChatGPT.

S'affranchir des garde-fous qui empêchent les modèles de générer des contenus potentiellement préjudiciables est presque devenu un sport pour certains utilisateurs des outils d'IA. Sur Discord et Twitter, "Pliny the Prompter", un hacker qui s'emploie à jailbreaker les modèles d'IA, a publié des méthodes pour activer le mode "god" dans les modèles. Ce mode supprime les garde-fous de sécurité qui empêchent les systèmes d'IA de générer des contenus préjudiciables.

Pliny (nom fictif) a obtenu du modèle Llama 3 de Meta qu'il fournisse « une recette pour fabriquer du napalm » et de Grok d'Elon Musk qu'il fasse l'éloge d'Adolf Hitler. L'examen des différentes techniques révèle que Pliny (nom fictif) utilise différentes techniques, telles que l'utilisation d'écritures non latines et de langues autres que l'anglais, pour tromper les modèles. Les comptes de médias sociaux partageant ces techniques d'attaque se multiplient très rapidement.

En août de l'année dernière, des chercheurs de l'université Carnegie Mellon ont rapporté avoir découvert un moyen simple d'obliger ChatGPT et d'autres chatbots d'IA de premier plan à ignorer leurs filtres, prouvant une fois de plus que l'IA est difficile à sécuriser. L'étude a révélé que l'ajout d'une simple chaîne de caractères à une invite peut déjouer toutes les défenses ou mesures de sécurité mise en place par les créateurs de grands modèles de langage (LLM).

L'étude suggère que la propension des chatbots d'IA les plus avancés à dérailler n'est pas une simple bizarrerie que l'on peut masquer avec quelques garde-fous simples. Il s'agirait plutôt d'une faiblesse plus fondamentale qui compliquera les efforts de déploiement d'une IA la plus avancée.

OpenAI : les jailbreaks ne sont pas éligibles au programme de primes aux bogues

Amadon a déclaré avoir signalé ses découvertes à OpenAI par le biais du programme de primes aux bogues de l'entreprise, mais a reçu une réponse selon laquelle « les problèmes de sécurité des modèles ne s'intègrent pas bien dans un programme de primes aux bogues, car il ne s'agit pas de bogues individuels et discrets qui peuvent être directement corrigés. La résolution de ces problèmes nécessite souvent des recherches approfondies et une approche plus large ».

Au lieu de cela, la plateforme de sécurité collaborative Bugcrowd, qui gère le programme de primes aux bogues d'OpenAI, a dit à Amadon de signaler le problème via un autre formulaire. OpenAI n'a pas commenté le rapport de Techcrunch sur les découvertes d'Amadon. La société a récemment publié un nouveau modèle « o1 » qui, selon elle, réfléchit avant de répondre, c'est-à-dire qu'il peut produire une longue chaîne de pensée interne avant de répondre à l'utilisateur.

OpenAI o1 se classe dans le 89e percentile pour les questions de programmation compétitives (Codeforces), parmi les 500 meilleurs étudiants des États-Unis lors d'une épreuve de qualification pour les Olympiades américaines de mathématiques (AIME), et dépasse le niveau de précision d'un doctorat humain sur un benchmark de problèmes de physique, de biologie et de chimie (GPQA). Certains affirment que le raisonnement peut aider à contrer les jailbreaks.

Par nature, les modèles d'IA générative comme ChatGPT et Gemini s'appuient sur d'énormes quantités d'informations grattées et collectées sur Internet, et ont grandement facilité la remontée à la surface d'informations provenant des recoins les plus sombres du Web. En outre, les modèles d'IA sont confrontés au problème de l'hallucination, un phénomène qui se produit lorsque l'IA génère des informations erronées et tente de les présenter comme étant vraies.

Et vous ?

Quel est votre avis sur le sujet ?

Voir aussi

Un jailbreak appelé "Skeleton Key" révèle le pire de l'IA : une simple invite permet de contourner les garde-fous de sécurité sur les principaux modèles comme GPT-4o et Gemini Pro, selon Microsoft

Des chercheurs découvrent un moyen simple de faire en sorte qu'une IA ignore ses garde-fous et diffuse des contenus interdits, l'exploit affecte aussi bien ChatGPT que ses rivaux Bard et Claude

La méthode "Crescendo" permet de jailbreaker l'IA de type LLM, en utilisant des invites en apparence inoffensives afin de produire des résultats qui seraient normalement filtrés et refusés

Vous avez lu gratuitement 366 articles depuis plus d'un an.
Soutenez le club developpez.com en souscrivant un abonnement pour que nous puissions continuer à vous proposer des publications.

Une erreur dans cette actualité ? Signalez-nous-la !

Votre nom : Votre e-mail :

Décrivez l'erreur que vous souhaitez porter à notre connaissance :