
En mai 2024, une étude d'AWS AI Labs a révélé que ChatGPT et d'autres grands modèles de langage (LLM) peuvent être amenés à donner des conseils dangereux. En faisant des recherches, les chercheurs ont découvert que les LLM tels que ChatGPT peuvent être facilement influencés et donner des informations qui ne sont pas autorisées par les développeurs. Ils peuvent être trompés et donner des informations telles que le meurtre d'une personne, la fabrication d'une bombe, etc. Certains utilisateurs se servent également de ces LLM pour écrire des textes haineux qui sont ensuite utilisés sur l'internet pour harceler les gens.
Une étude récente a confirmé ces conclusions. Les chatbots d'IA tels que ChatGPT, Gemini et Claude sont confrontés à une grave menace pour la sécurité, car les pirates informatiques trouvent des moyens de contourner leurs systèmes de sécurité intégrés, selon l'étude. Une fois "jailbreakés", ces chatbots peuvent divulguer des informations dangereuses et illégales, telles que des techniques de piratage ou des instructions pour la fabrication de bombes.
Dans un nouveau rapport de l'université Ben Gurion du Néguev, en Israël, le professeur Lior Rokach et le docteur Michael Fire révèlent à quel point il est facile de manipuler les principaux modèles d'IA pour qu'ils génèrent des contenus nuisibles. Malgré les efforts déployés par les entreprises pour éliminer les contenus illégaux ou à risque des données d'entraînement, ces grands modèles de langage (LLM) continuent d'absorber les connaissances sensibles disponibles sur l'internet.
"Ce qui était autrefois réservé aux acteurs étatiques ou aux groupes criminels organisés pourrait bientôt être entre les mains de quiconque possède un ordinateur portable ou même un téléphone mobile", avertissent les auteurs.

Le jailbreaking utilise des messages spécialement conçus pour inciter les chatbots à ignorer leurs règles de sécurité. Les modèles d'IA sont programmés avec deux objectifs : aider les utilisateurs et éviter de donner des réponses nuisibles, biaisées ou illégales. Les jailbreaks exploitent cet équilibre en forçant le chatbot à donner la priorité à la serviabilité, parfois à n'importe quel prix.
Les chercheurs ont mis au point un "jailbreak universel" capable de contourner les mesures de sécurité de plusieurs chatbots de premier plan. Une fois compromis, les systèmes répondaient systématiquement aux questions qu'ils étaient censés rejeter. "Il était choquant de voir en quoi consiste ce système de connaissances", a déclaré le Dr Michael Fire.
Les modèles fournissaient des guides étape par étape sur des actions illégales, telles que le piratage de réseaux ou la production de drogues. "Ce qui distingue cette menace des risques technologiques précédents, c'est sa combinaison sans précédent d'accessibilité, d'extensibilité et d'adaptabilité", a ajouté le professeur Lior Rokach.
L'étude s'alarme également de l'émergence de "LLM sombres", des modèles qui sont soit construits sans contrôles de sécurité, soit modifiés pour les désactiver. Certains sont ouvertement présentés en ligne comme des outils d'aide à la cybercriminalité, à la fraude et à d'autres activités illicites. À titre d'exemple, en 2023, un hacker a créé sa propre version de ChatGPT, mais avec un penchant malveillant : WormGPT, un chatbot conçu pour aider les cybercriminels.
Bien qu'ils aient informé les principaux fournisseurs d'IA de l'existence du jailbreak universel, les chercheurs ont indiqué que la réaction avait été faible. Certaines entreprises n'ont pas répondu, tandis que d'autres ont affirmé que les jailbreaks n'étaient pas couverts par les programmes de bug bounty existants. OpenAI, qui a développé ChatGPT, a déclaré que son modèle le plus récent peut mieux comprendre et appliquer les règles de sécurité, ce qui le rend plus résistant aux jailbreaks. L'entreprise a ajouté qu'elle recherchait activement des moyens d'améliorer la protection. De son côté, Microsoft a réaffirmé ses travaux en matière de sécurité. Tandis que Google, Meta et Anthropic n'ont pas encore fait de commentaires.
Le rapport recommande aux entreprises technologiques de prendre des mesures plus énergiques, notamment un meilleur contrôle des données de formation, des pare-feu pour bloquer les messages et les réponses nuisibles, et de développer le "désapprentissage automatique" afin d'effacer les connaissances illégales des modèles. Les chercheurs affirment également que les LLM obscurs devraient être traités comme des armes sans licence et que les développeurs doivent être tenus pour responsables.

La fin de cet article est réservée aux abonnés. Soutenez le Club Developpez.com en prenant un abonnement pour que nous puissions continuer à vous proposer des publications.