
Une nouvelle étude révèle que la plupart des chatbots d'IA, y compris ChatGPT, peuvent être facilement incités à fournir des informations dangereuses et illégales en contournant les contrôles de sécurité intégrés. Le rapport confirme la montée des LLM sombres qui divulguent des conseils de piratage ou de fabrication de drogues. Bien qu'ils aient informé les principaux fournisseurs d'IA de l'existence du jailbreak universel, les chercheurs ont indiqué que la réaction avait été faible.
En mai 2024, une étude d'AWS AI Labs a révélé que ChatGPT et d'autres grands modèles de langage (LLM) peuvent être amenés à donner des conseils dangereux. En faisant des recherches, les chercheurs ont découvert que les LLM tels que ChatGPT peuvent être facilement influencés et donner des informations qui ne sont pas autorisées par les développeurs. Ils peuvent être trompés et donner des informations telles que le meurtre d'une personne, la fabrication d'une bombe, etc. Certains utilisateurs se servent également de ces LLM pour écrire des textes haineux qui sont ensuite utilisés sur l'internet pour harceler les gens.
Une étude récente a confirmé ces conclusions. Les chatbots d'IA tels que ChatGPT, Gemini et Claude sont confrontés à une grave menace pour la sécurité, car les pirates informatiques trouvent des moyens de contourner leurs systèmes de sécurité intégrés, selon l'étude. Une fois "jailbreakés", ces chatbots peuvent divulguer des informations dangereuses et illégales, telles que des techniques de piratage ou des instructions pour la fabrication de bombes.
Dans un nouveau rapport de l'université Ben Gurion du Néguev, en Israël, le professeur Lior Rokach et le docteur Michael Fire révèlent à quel point il est facile de manipuler les principaux modèles d'IA pour qu'ils génèrent des contenus nuisibles. Malgré les efforts déployés par les entreprises pour éliminer les contenus illégaux ou à risque des données d'entraînement, ces grands modèles de langage (LLM) continuent d'absorber les connaissances sensibles disponibles sur l'internet.
"Ce qui était autrefois réservé aux acteurs étatiques ou aux groupes criminels organisés pourrait bientôt être entre les mains de quiconque possède un ordinateur portable ou même un téléphone mobile", avertissent les auteurs.

Le jailbreaking utilise des messages spécialement conçus pour inciter les chatbots à ignorer leurs règles de sécurité. Les modèles d'IA sont programmés avec deux objectifs : aider les utilisateurs et éviter de donner des réponses nuisibles, biaisées ou illégales. Les jailbreaks exploitent cet équilibre en forçant le chatbot à donner la priorité à la serviabilité, parfois à n'importe quel prix.
Les chercheurs ont mis au point un "jailbreak universel" capable de contourner les mesures de sécurité de plusieurs chatbots de premier plan. Une fois compromis, les systèmes répondaient systématiquement aux questions qu'ils étaient censés rejeter. "Il était choquant de voir en quoi consiste ce système de connaissances", a déclaré le Dr Michael Fire.
Les modèles fournissaient des guides étape par étape sur des actions illégales, telles que le piratage de réseaux ou la production de drogues. "Ce qui distingue cette menace des risques technologiques précédents, c'est sa combinaison sans précédent d'accessibilité, d'extensibilité et d'adaptabilité", a ajouté le professeur Lior Rokach.
L'étude s'alarme également de l'émergence de "LLM sombres", des modèles qui sont soit construits sans contrôles de sécurité, soit modifiés pour les désactiver. Certains sont ouvertement présentés en ligne comme des outils d'aide à la cybercriminalité, à la fraude et à d'autres activités illicites. À titre d'exemple, en 2023, un hacker a créé sa propre version de ChatGPT, mais avec un penchant malveillant : WormGPT, un chatbot conçu pour aider les cybercriminels.
Bien qu'ils aient informé les principaux fournisseurs d'IA de l'existence du jailbreak universel, les chercheurs ont indiqué que la réaction avait été faible. Certaines entreprises n'ont pas répondu, tandis que d'autres ont affirmé que les jailbreaks n'étaient pas couverts par les programmes de bug bounty existants. OpenAI, qui a développé ChatGPT, a déclaré que son modèle le plus récent peut mieux comprendre et appliquer les règles de sécurité, ce qui le rend plus résistant aux jailbreaks. L'entreprise a ajouté qu'elle recherchait activement des moyens d'améliorer la protection. De son côté, Microsoft a réaffirmé ses travaux en matière de sécurité. Tandis que Google, Meta et Anthropic n'ont pas encore fait de commentaires.
Le rapport recommande aux entreprises technologiques de prendre des mesures plus énergiques, notamment un meilleur contrôle des données de formation, des pare-feu pour bloquer les messages et les réponses nuisibles, et de développer le "désapprentissage automatique" afin d'effacer les connaissances illégales des modèles. Les chercheurs affirment également que les LLM obscurs devraient être traités comme des armes sans licence et que les développeurs doivent être tenus pour responsables.

"Un élément clé de la solution est que les entreprises investissent plus sérieusement dans les techniques de red teaming et de robustesse au niveau du modèle, plutôt que de s'appuyer uniquement sur des mesures de protection frontales", a-t-il déclaré. "Nous avons également besoin de normes plus claires et d'un contrôle indépendant pour suivre l'évolution du paysage des menaces".
Le professeur Peter Garraghan, de l'université de Lancaster, s'est fait l'écho de la nécessité de renforcer les mesures de sécurité. "Les organisations doivent traiter les LLM comme n'importe quel autre composant logiciel critique - qui nécessite des tests de sécurité rigoureux, une équipe rouge permanente et une modélisation contextuelle des menaces", a-t-il déclaré. "La sécurité réelle exige non seulement une divulgation responsable, mais aussi des pratiques de conception et de déploiement responsables".
Outre la menace du jailbreak, la confabulation ou l'hallucination représente également une autre menace pour les LLM. L'hallucination est une tendance des chatbots IA à partager des informations incorrectes tout en les présentant comme faisant autorité. En 2024, la ville de New York a fait face à de sérieux problèmes à cause des réponses incorrectes du chatbot géré par le gouvernement de la ville. Le chatbot IA de New York a incité entre autre les concitoyens à enfreindre les lois et à commettre des délits.
Source : "Dark LLMs: The Growing Threat of Unaligned AI Models"
Et vous ?


Voir aussi :



Vous avez lu gratuitement 100 articles depuis plus d'un an.
Soutenez le club developpez.com en souscrivant un abonnement pour que nous puissions continuer à vous proposer des publications.
Soutenez le club developpez.com en souscrivant un abonnement pour que nous puissions continuer à vous proposer des publications.