Dark LLM : la plupart des chatbots d'IA, y compris ChatGPT, peuvent être facilement incités à fournir des informations dangereuses et illégales en contournant les contrôles de sécurité

Le 23 mai 2025 à 12:07, par Jade Emy

36PARTAGES

Les LLM sombres : la plupart des chatbots d'IA, y compris ChatGPT, peuvent être facilement incités à fournir des informations dangereuses et illégales en contournant les contrôles de sécurité

Une nouvelle étude révèle que la plupart des chatbots d'IA, y compris ChatGPT, peuvent être facilement incités à fournir des informations dangereuses et illégales en contournant les contrôles de sécurité intégrés. Le rapport confirme la montée des LLM sombres qui divulguent des conseils de piratage ou de fabrication de drogues. Bien qu'ils aient informé les principaux fournisseurs d'IA de l'existence du jailbreak universel, les chercheurs ont indiqué que la réaction avait été faible.

En mai 2024, une étude d'AWS AI Labs a révélé que ChatGPT et d'autres grands modèles de langage (LLM) peuvent être amenés à donner des conseils dangereux. En faisant des recherches, les chercheurs ont découvert que les LLM tels que ChatGPT peuvent être facilement influencés et donner des informations qui ne sont pas autorisées par les développeurs. Ils peuvent être trompés et donner des informations telles que le meurtre d'une personne, la fabrication d'une bombe, etc. Certains utilisateurs se servent également de ces LLM pour écrire des textes haineux qui sont ensuite utilisés sur l'internet pour harceler les gens.

Une étude récente a confirmé ces conclusions. Les chatbots d'IA tels que ChatGPT, Gemini et Claude sont confrontés à une grave menace pour la sécurité, car les pirates informatiques trouvent des moyens de contourner leurs systèmes de sécurité intégrés, selon l'étude. Une fois "jailbreakés", ces chatbots peuvent divulguer des informations dangereuses et illégales, telles que des techniques de piratage ou des instructions pour la fabrication de bombes.

Dans un nouveau rapport de l'université Ben Gurion du Néguev, en Israël, le professeur Lior Rokach et le docteur Michael Fire révèlent à quel point il est facile de manipuler les principaux modèles d'IA pour qu'ils génèrent des contenus nuisibles. Malgré les efforts déployés par les entreprises pour éliminer les contenus illégaux ou à risque des données d'entraînement, ces grands modèles de langage (LLM) continuent d'absorber les connaissances sensibles disponibles sur l'internet.

"Ce qui était autrefois réservé aux acteurs étatiques ou aux groupes criminels organisés pourrait bientôt être entre les mains de quiconque possède un ordinateur portable ou même un téléphone mobile", avertissent les auteurs.

Envoyé par Présentation de l'étude

Les grands modèles de langage (LLM) remodèlent rapidement la vie moderne, faisant progresser des domaines allant des soins de santé à l'éducation et au-delà. Toutefois, ces capacités remarquables s'accompagnent d'une menace importante : la vulnérabilité de ces modèles aux attaques de type "jailbreak". La vulnérabilité fondamentale des LLM aux attaques de type "jailbreak" découle des données mêmes à partir desquelles ils apprennent. Tant que ces données d'apprentissage comprennent des contenus non filtrés, problématiques ou "sombres", les modèles peuvent intrinsèquement apprendre des schémas indésirables ou des faiblesses qui permettent aux utilisateurs de contourner les contrôles de sécurité prévus.

Notre recherche identifie la menace croissante posée par les LLM sombres - des modèles délibérément conçus sans garde-fous éthiques ou modifiés par des techniques de jailbreak. Dans le cadre de nos recherches, nous avons découvert une attaque universelle de type "jailbreak" qui compromet efficacement plusieurs modèles de pointe, leur permettant de répondre à presque n'importe quelle question et de produire des résultats nuisibles sur demande.

L'idée principale de notre attaque a été publiée en ligne il y a plus de sept mois. Cependant, de nombreux LLM testés étaient encore vulnérables à cette attaque. Malgré nos efforts de divulgation responsable, les réponses des principaux fournisseurs de LLM étaient souvent inadéquates, ce qui met en évidence une lacune préoccupante dans les pratiques de l'industrie en matière de sécurité de l'IA.

À mesure que la formation des modèles devient plus accessible et moins chère, et que les LLM à code source ouvert prolifèrent, le risque d'une utilisation abusive généralisée augmente. Sans intervention décisive, les LLM pourraient continuer à démocratiser l'accès à des connaissances dangereuses, posant ainsi des risques plus importants que prévu.

L'essor des "LLM sombres" et l'absence de réaction de l'industrie

Le jailbreaking utilise des messages spécialement conçus pour inciter les chatbots à ignorer leurs règles de sécurité. Les modèles d'IA sont programmés avec deux objectifs : aider les utilisateurs et éviter de donner des réponses nuisibles, biaisées ou illégales. Les jailbreaks exploitent cet équilibre en forçant le chatbot à donner la priorité à la serviabilité, parfois à n'importe quel prix.

Les chercheurs ont mis au point un "jailbreak universel" capable de contourner les mesures de sécurité de plusieurs chatbots de premier plan. Une fois compromis, les systèmes répondaient systématiquement aux questions qu'ils étaient censés rejeter. "Il était choquant de voir en quoi consiste ce système de connaissances", a déclaré le Dr Michael Fire.

Les modèles fournissaient des guides étape par étape sur des actions illégales, telles que le piratage de réseaux ou la production de drogues. "Ce qui distingue cette menace des risques technologiques précédents, c'est sa combinaison sans précédent d'accessibilité, d'extensibilité et d'adaptabilité", a ajouté le professeur Lior Rokach.

L'étude s'alarme également de l'émergence de "LLM sombres", des modèles qui sont soit construits sans contrôles de sécurité, soit modifiés pour les désactiver. Certains sont ouvertement présentés en ligne comme des outils d'aide à la cybercriminalité, à la fraude et à d'autres activités illicites. À titre d'exemple, en 2023, un hacker a créé sa propre version de ChatGPT, mais avec un penchant malveillant : WormGPT, un chatbot conçu pour aider les cybercriminels.

Bien qu'ils aient informé les principaux fournisseurs d'IA de l'existence du jailbreak universel, les chercheurs ont indiqué que la réaction avait été faible. Certaines entreprises n'ont pas répondu, tandis que d'autres ont affirmé que les jailbreaks n'étaient pas couverts par les programmes de bug bounty existants. OpenAI, qui a développé ChatGPT, a déclaré que son modèle le plus récent peut mieux comprendre et appliquer les règles de sécurité, ce qui le rend plus résistant aux jailbreaks. L'entreprise a ajouté qu'elle recherchait activement des moyens d'améliorer la protection. De son côté, Microsoft a réaffirmé ses travaux en matière de sécurité. Tandis que Google, Meta et Anthropic n'ont pas encore fait de commentaires.

Le rapport recommande aux entreprises technologiques de prendre des mesures plus énergiques, notamment un meilleur contrôle des données de formation, des pare-feu pour bloquer les messages et les réponses nuisibles, et de développer le "désapprentissage automatique" afin d'effacer les connaissances illégales des modèles. Les chercheurs affirment également que les LLM obscurs devraient être traités comme des armes sans licence et que les développeurs doivent être tenus pour responsables.

Envoyé par Conclusion de l'étude

Les LLM sont l'une des technologies les plus importantes de notre époque. Leur potentiel bénéfique est immense, mais leur capacité de nuisance l'est tout autant s'ils ne sont pas contrôlés. Sans contrôle, les LLM sombres pourraient démocratiser l'accès à des connaissances dangereuses à une échelle sans précédent, en donnant du pouvoir aux criminels et aux extrémistes du monde entier. Il ne suffit pas de se réjouir des promesses de l'innovation en matière d'IA. Sans une intervention décisive - technique, réglementaire et sociétale - nous risquons de déclencher un avenir où les mêmes outils qui guérissent, enseignent et inspirent peuvent tout aussi bien détruire. Le choix nous appartient. Mais le temps presse.

À la suite de ce rapport, les experts appellent à un renforcement de la surveillance et de la conception. Le Dr Ihsen Alouani, chercheur en sécurité de l'IA à l'université Queen's de Belfast, a averti que les chatbots jailbreakés pouvaient fournir des instructions pour la fabrication d'armes, diffuser de la désinformation ou organiser des escroqueries sophistiquées.

"Un élément clé de la solution est que les entreprises investissent plus sérieusement dans les techniques de red teaming et de robustesse au niveau du modèle, plutôt que de s'appuyer uniquement sur des mesures de protection frontales", a-t-il déclaré. "Nous avons également besoin de normes plus claires et d'un contrôle indépendant pour suivre l'évolution du paysage des menaces".

Le professeur Peter Garraghan, de l'université de Lancaster, s'est fait l'écho de la nécessité de renforcer les mesures de sécurité. "Les organisations doivent traiter les LLM comme n'importe quel autre composant logiciel critique - qui nécessite des tests de sécurité rigoureux, une équipe rouge permanente et une modélisation contextuelle des menaces", a-t-il déclaré. "La sécurité réelle exige non seulement une divulgation responsable, mais aussi des pratiques de conception et de déploiement responsables".

Outre la menace du jailbreak, la confabulation ou l'hallucination représente également une autre menace pour les LLM. L'hallucination est une tendance des chatbots IA à partager des informations incorrectes tout en les présentant comme faisant autorité. En 2024, la ville de New York a fait face à de sérieux problèmes à cause des réponses incorrectes du chatbot géré par le gouvernement de la ville. Le chatbot IA de New York a incité entre autre les concitoyens à enfreindre les lois et à commettre des délits.

Source : "Dark LLMs: The Growing Threat of Unaligned AI Models"

Et vous ?

Pensez-vous que cette étude est crédible ou pertinente ?

Quel est votre avis sur le sujet ?

Voir aussi :

Le nouveau jailbreak des LLM exploite leurs capacités d'évaluation pour les contourner. Les chercheurs de Palo Alto exploitent l'échelle de Likert pour contourner les LLM

Anthropic a mis au point une nouvelle méthode pour protéger les LLM contre les piratages. Cette défense pourrait être la plus puissante à ce jour, mais aucun bouclier n'est parfait

La méthode "Crescendo" permet de jailbreaker l'IA de type LLM, en utilisant des invites en apparence inoffensives, afin de produire des résultats qui seraient normalement filtrés et refusés

Vous avez lu gratuitement 2 654 articles depuis plus d'un an.
Soutenez le club developpez.com en souscrivant un abonnement pour que nous puissions continuer à vous proposer des publications.

Une erreur dans cette actualité ? Signalez-nous-la !

Votre nom : Votre e-mail :

Décrivez l'erreur que vous souhaitez porter à notre connaissance :

Identifiez-vous

Créer un compte

Dark LLM : la plupart des chatbots d'IA, y compris ChatGPT, peuvent être facilement incités à fournir des informations dangereuses et illégales en contournant les contrôles de sécurité

Identifiant
Mot de passe

Mot de passe oublié ?