IdentifiantMot de passe
Loading...
Mot de passe oublié ?Je m'inscris ! (gratuit)

Vous êtes nouveau sur Developpez.com ? Créez votre compte ou connectez-vous afin de pouvoir participer !

Vous devez avoir un compte Developpez.com et être connecté pour pouvoir participer aux discussions.

Vous n'avez pas encore de compte Developpez.com ? Créez-en un en quelques instants, c'est entièrement gratuit !

Si vous disposez déjà d'un compte et qu'il est bien activé, connectez-vous à l'aide du formulaire ci-dessous.

Identifiez-vous
Identifiant
Mot de passe
Mot de passe oublié ?
Créer un compte

L'inscription est gratuite et ne vous prendra que quelques instants !

Je m'inscris !

Dark LLM : la plupart des chatbots d'IA, y compris ChatGPT, peuvent être facilement incités à fournir des informations dangereuses et illégales en contournant les contrôles de sécurité

Le , par Jade Emy

6PARTAGES

5  0 
Une nouvelle étude révèle que la plupart des chatbots d'IA, y compris ChatGPT, peuvent être facilement incités à fournir des informations dangereuses et illégales en contournant les contrôles de sécurité intégrés. Le rapport confirme la montée des LLM sombres qui divulguent des conseils de piratage ou de fabrication de drogues. Bien qu'ils aient informé les principaux fournisseurs d'IA de l'existence du jailbreak universel, les chercheurs ont indiqué que la réaction avait été faible.

En mai 2024, une étude d'AWS AI Labs a révélé que ChatGPT et d'autres grands modèles de langage (LLM) peuvent être amenés à donner des conseils dangereux. En faisant des recherches, les chercheurs ont découvert que les LLM tels que ChatGPT peuvent être facilement influencés et donner des informations qui ne sont pas autorisées par les développeurs. Ils peuvent être trompés et donner des informations telles que le meurtre d'une personne, la fabrication d'une bombe, etc. Certains utilisateurs se servent également de ces LLM pour écrire des textes haineux qui sont ensuite utilisés sur l'internet pour harceler les gens.

Une étude récente a confirmé ces conclusions. Les chatbots d'IA tels que ChatGPT, Gemini et Claude sont confrontés à une grave menace pour la sécurité, car les pirates informatiques trouvent des moyens de contourner leurs systèmes de sécurité intégrés, selon l'étude. Une fois "jailbreakés", ces chatbots peuvent divulguer des informations dangereuses et illégales, telles que des techniques de piratage ou des instructions pour la fabrication de bombes.

Dans un nouveau rapport de l'université Ben Gurion du Néguev, en Israël, le professeur Lior Rokach et le docteur Michael Fire révèlent à quel point il est facile de manipuler les principaux modèles d'IA pour qu'ils génèrent des contenus nuisibles. Malgré les efforts déployés par les entreprises pour éliminer les contenus illégaux ou à risque des données d'entraînement, ces grands modèles de langage (LLM) continuent d'absorber les connaissances sensibles disponibles sur l'internet.

"Ce qui était autrefois réservé aux acteurs étatiques ou aux groupes criminels organisés pourrait bientôt être entre les mains de quiconque possède un ordinateur portable ou même un téléphone mobile", avertissent les auteurs.

Citation Envoyé par Présentation de l'étude

Les grands modèles de langage (LLM) remodèlent rapidement la vie moderne, faisant progresser des domaines allant des soins de santé à l'éducation et au-delà. Toutefois, ces capacités remarquables s'accompagnent d'une menace importante : la vulnérabilité de ces modèles aux attaques de type "jailbreak". La vulnérabilité fondamentale des LLM aux attaques de type "jailbreak" découle des données mêmes à partir desquelles ils apprennent. Tant que ces données d'apprentissage comprennent des contenus non filtrés, problématiques ou "sombres", les modèles peuvent intrinsèquement apprendre des schémas indésirables ou des faiblesses qui permettent aux utilisateurs de contourner les contrôles de sécurité prévus.

Notre recherche identifie la menace croissante posée par les LLM sombres - des modèles délibérément conçus sans garde-fous éthiques ou modifiés par des techniques de jailbreak. Dans le cadre de nos recherches, nous avons découvert une attaque universelle de type "jailbreak" qui compromet efficacement plusieurs modèles de pointe, leur permettant de répondre à presque n'importe quelle question et de produire des résultats nuisibles sur demande.

L'idée principale de notre attaque a été publiée en ligne il y a plus de sept mois. Cependant, de nombreux LLM testés étaient encore vulnérables à cette attaque. Malgré nos efforts de divulgation responsable, les réponses des principaux fournisseurs de LLM étaient souvent inadéquates, ce qui met en évidence une lacune préoccupante dans les pratiques de l'industrie en matière de sécurité de l'IA.

À mesure que la formation des modèles devient plus accessible et moins chère, et que les LLM à code source ouvert prolifèrent, le risque d'une utilisation abusive généralisée augmente. Sans intervention décisive, les LLM pourraient continuer à démocratiser l'accès à des connaissances dangereuses, posant ainsi des risques plus importants que prévu.
L'essor des "LLM sombres" et l'absence de réaction de l'industrie

Le jailbreaking utilise des messages spécialement conçus pour inciter les chatbots à ignorer leurs règles de sécurité. Les modèles d'IA sont programmés avec deux objectifs : aider les utilisateurs et éviter de donner des réponses nuisibles, biaisées ou illégales. Les jailbreaks exploitent cet équilibre en forçant le chatbot à donner la priorité à la serviabilité, parfois à n'importe quel prix.

Les chercheurs ont mis au point un "jailbreak universel" capable de contourner les mesures de sécurité de plusieurs chatbots de premier plan. Une fois compromis, les systèmes répondaient systématiquement aux questions qu'ils étaient censés rejeter. "Il était choquant de voir en quoi consiste ce système de connaissances", a déclaré le Dr Michael Fire.

Les modèles fournissaient des guides étape par étape sur des actions illégales, telles que le piratage de réseaux ou la production de drogues. "Ce qui distingue cette menace des risques technologiques précédents, c'est sa combinaison sans précédent d'accessibilité, d'extensibilité et d'adaptabilité", a ajouté le professeur Lior Rokach.

L'étude s'alarme également de l'émergence de "LLM sombres", des modèles qui sont soit construits sans contrôles de sécurité, soit modifiés pour les désactiver. Certains sont ouvertement présentés en ligne comme des outils d'aide à la cybercriminalité, à la fraude et à d'autres activités illicites. À titre d'exemple, en 2023, un hacker a créé sa propre version de ChatGPT, mais avec un penchant malveillant : WormGPT, un chatbot conçu pour aider les cybercriminels.

Bien qu'ils aient informé les principaux fournisseurs d'IA de l'existence du jailbreak universel, les chercheurs ont indiqué que la réaction avait été faible. Certaines entreprises n'ont pas répondu, tandis que d'autres ont affirmé que les jailbreaks n'étaient pas couverts par les programmes de bug bounty existants. OpenAI, qui a développé ChatGPT, a déclaré que son modèle le plus récent peut mieux comprendre et appliquer les règles de sécurité, ce qui le rend plus résistant aux jailbreaks. L'entreprise a ajouté qu'elle recherchait activement des moyens d'améliorer la protection. De son côté, Microsoft a réaffirmé ses travaux en matière de sécurité. Tandis que Google, Meta et Anthropic n'ont pas encore fait de commentaires.

Le rapport recommande aux entreprises technologiques de prendre des mesures plus énergiques, notamment un meilleur contrôle des données de formation, des pare-feu pour bloquer les messages et les réponses nuisibles, et de développer le "désapprentissage automatique" afin d'effacer les connaissances illégales des modèles. Les chercheurs affirment également que les LLM obscurs devraient être traités comme des armes sans licence et que les développeurs doivent être tenus pour responsables.

Citation Envoyé par Conclusion de l'étude

Les LLM sont l'une des technologies les plus importantes de notre époque. Leur potentiel bénéfique est immense, mais leur capacité de nuisance l'est tout autant s'ils ne sont pas contrôlés. Sans contrôle, les LLM sombres pourraient démocratiser l'accès à des connaissances dangereuses à une échelle sans précédent, en donnant du pouvoir aux criminels et aux extrémistes du monde entier. Il ne suffit pas de se réjouir des promesses de l'innovation en matière d'IA. Sans une intervention décisive - technique, réglementaire et sociétale - nous risquons de déclencher un avenir où les mêmes outils qui guérissent, enseignent et inspirent peuvent tout aussi bien détruire. Le choix nous appartient. Mais le temps presse.
À la suite de ce rapport, les experts...
La fin de cet article est réservée aux abonnés. Soutenez le Club Developpez.com en prenant un abonnement pour que nous puissions continuer à vous proposer des publications.

Une erreur dans cette actualité ? Signalez-nous-la !