IdentifiantMot de passe
Loading...
Mot de passe oublié ?Je m'inscris ! (gratuit)

Vous êtes nouveau sur Developpez.com ? Créez votre compte ou connectez-vous afin de pouvoir participer !

Vous devez avoir un compte Developpez.com et être connecté pour pouvoir participer aux discussions.

Vous n'avez pas encore de compte Developpez.com ? Créez-en un en quelques instants, c'est entièrement gratuit !

Si vous disposez déjà d'un compte et qu'il est bien activé, connectez-vous à l'aide du formulaire ci-dessous.

Identifiez-vous
Identifiant
Mot de passe
Mot de passe oublié ?
Créer un compte

L'inscription est gratuite et ne vous prendra que quelques instants !

Je m'inscris !

ChatGPT et d'autres LLM peuvent être trompés pour fournir des conseils dangereux
Comme le meutre, la fabrication d'une bombe, et la rédaction de textes haineux pour harceler les gens

Le , par Jade Emy

56PARTAGES

3  0 
Des chercheurs en IA d'AWS AI Labs ont découvert que de nombreux grands modèles de langage (LLM) peuvent être facilement manipulés et qu'ils peuvent donner aux utilisateurs des informations dangereuses.

Un grand modèle de langage (LLM) est un modèle de langage qui se distingue par sa capacité à comprendre et à générer du langage à des fins générales. Les LLM acquièrent ces capacités en apprenant des relations statistiques à partir de documents textuels au cours d'un processus d'apprentissage autosupervisé et semi-supervisé à forte intensité de calcul. Les LLM peuvent être utilisés pour la génération de texte, une forme d'IA générative.

Selon une étude d'AWS AI Labs, ChatGPT et d'autres LLM peuvent être amenés à donner des conseils dangereux. En faisant des recherches, les chercheurs ont découvert que les LLM tels que ChatGPT peuvent être facilement influencés et donner des informations qui ne sont pas autorisées par les développeurs. Ils peuvent être trompés et donner des informations telles que le meurtre d'une personne, la fabrication d'une bombe, etc. Certains utilisateurs se servent également de ces LLM pour écrire des textes haineux qui sont ensuite utilisés sur l'internet pour harceler les gens.

Lorsque les développeurs se sont plaints de ces comportements de l'IA, ils ont essayé d'ajouter des règles empêchant les LLM de donner des réponses à des questions dangereuses, illégales ou préjudiciables. Mais cette étude a révélé que ces préventions et ces règles n'étaient pas utiles pour rendre l'IA sûre pour tout le monde. De nombreux utilisateurs ont commencé à utiliser des signaux audio pour manipuler les LLM. Les chercheurs d'AWS ont également essayé d'interroger les LLM à l'aide de signaux audio et ont découvert que les signaux audio n'étaient pas utiles pour les restrictions que les développeurs d'IA ont imposées à l'IA.

Les chercheurs ont examiné de nombreux LLM en leur donnant des indications audio sur certaines questions originales et ils ont constaté que ces LLM ignoraient tous les aspects négatifs des questions et donnaient quand même une réponse. Les chercheurs ont conclu que les développeurs d'IA devraient commencer à ajouter des bruits aléatoires aux audios envoyés aux LLM afin que ces modèles d'IA cessent d'ignorer les règles et les systèmes de protection de ces développeurs.


SpeechGuard : Exploration de la robustesse contradictoire des grands modèles de langage multimodaux

Les modèles intégrés de parole et de grand langage (SLM) capables de suivre des instructions vocales et de générer des réponses textuelles pertinentes ont gagné en popularité ces derniers temps. Cependant, la sécurité et la robustesse de ces modèles restent largement incertaines.

Dans ce travail, les chercheurs étudient les vulnérabilités potentielles de ces modèles de langage et de parole qui suivent les instructions face aux attaques adverses et au jailbreaking. Plus précisément, ils ont conçu des algorithmes capables de générer des exemples contradictoires pour casser les SLM dans des contextes d'attaque boîte blanche et boîte noire, sans intervention humaine.

En outre, ils proposent des contre-mesures pour contrecarrer ces attaques de jailbreaking. Les modèles qu'ils proposent, entraînés sur des données de dialogue avec des instructions vocales, atteignent des performances de pointe dans les tâches de questions-réponses orales, avec un score de plus de 80 % pour les mesures de sécurité et d'utilité.

Malgré les garde-fous de sécurité, les expériences sur le jailbreaking démontrent la vulnérabilité des SLM aux perturbations adverses et aux attaques par transfert, avec des taux de réussite moyens de 90 % et 10 % respectivement lorsqu'elles sont évaluées sur un ensemble de données de questions nuisibles soigneusement conçues et couvrant 12 catégories de substances toxiques différentes. Les résultats démontrent que les contre-mesures proposées réduisent considérablement le succès de l'attaque.


L'étude détaille l'alignement de sécurité des modèles de langage vocal dans l'optique de l'application de l'assurance qualité vocale. Elle explore la robustesse de plusieurs modèles internes et de modèles publics à la lumière d'attaques adverses. Pour déterminer avec précision l'alignement de sécurité de ces modèles, les chercheurs ont développé une configuration d'évaluation complète en utilisant un LLM public.

Grâce à des expériences approfondies, les résultats démontrent qu'un adversaire disposant d'un accès boîte blanche aux systèmes peut les pirater en utilisant des perturbations à peine perceptibles et les forcer à ignorer leur formation à l'alignement de sécurité. En outre, les perturbations adverses générées à l'aide d'un modèle peuvent casser un autre modèle avec un succès raisonnable, certains modèles présentant une plus grande robustesse que d'autres. Les résultats démontrent également l'efficacité d'une défense par inondation de bruit pour contrer les attaques.


Les chercheurs concluent :

À notre connaissance, il s'agit de la première étude portant sur la vulnérabilité potentielle en matière de sécurité des modèles intégrés de parole et de langage. Nous pensons qu'avec l'adoption rapide de ces technologies, il est impératif de bien comprendre les implications de ces systèmes en termes de sécurité. En outre, il est important de concevoir des contre-mesures efficaces contre les menaces de piratage et d'empêcher les modèles de causer des dommages.

Une approche holistique de la compréhension de l'alignement des systèmes sur la sécurité est nécessaire, y compris l'étude des menaces adverses universelles (une seule perturbation pour jailbreaker plusieurs systèmes), les attaques par injection rapide, l'empoisonnement des modèles, etc. Nous espérons que ce travail servira de précurseur à de nombreuses études de ce type.
Source : SpeechGuard: Exploring the Adversarial Robustness of Multimodal Large Language Models (AWS AI Labs, Amazon)

Et vous ?

Pensez-vous que cette étude est crédible ou pertinente ?
Quel est votre avis sur le sujet ?

Voir aussi :

Des chercheurs découvrent un moyen simple de faire en sorte qu'une IA ignore ses garde-fous et diffuse des contenus interdits, l'exploit affecte aussi bien ChatGPT que ses rivaux Bard et Claude

Les chatbots IA Jailbreakés peuvent Jailbreaker d'autres chatbots. Les chatbots IA peuvent par exemple convaincre d'autres chatbots d'enseigner aux utilisateurs comment fabriquer des bombes

La méthode "Crescendo" permet de jailbreaker l'IA de type LLM, en utilisant des invites en apparence inoffensives afin de produire des résultats qui seraient normalement filtrés et refusés

Anthropic publie un nouvel article d'étude sur le "many-shot jailbreaking" : une technique de "jailbreaking" qui peut être utilisée pour contourner les garde-fous mis en place sur les LLM

Une erreur dans cette actualité ? Signalez-nous-la !

Avatar de totozor
Expert confirmé https://www.developpez.com
Le 19/09/2024 à 7:47
Ma question est probablement très bête mais : la meilleure manière que ChatGPT ne nous fournisse pas des informations préjudiciables n'est il pas qu'il ne les ingère pas?
La réponse est probablement qu'étant "capable de raisonnement" si on ne lui donne pas la recette il sera quand même capable de la reproduire.
Mais certaines informations ne sont elles pas suffisamment délicates pour qu'elles deviennent très vagues : "Il ne faut pas mélanger A avec B parce que c'est dangereux". Dangereux regroupant toxique, explosif, corrosif, etc

ChatGPT s'est probablement amélioré depuis mais fut un temps il suffisait de décomposer le l'objectif en sous objectifs puis de lui demander de résumer les dernières réponses : sa conclusion ressemblait "Allez aux USA"
3  0 
Avatar de Gluups
Membre émérite https://www.developpez.com
Le 19/09/2024 à 7:50
À force qu'ils fassent les cons, il va finir par falloir les priver d'accès à Internet.
2  1 
Avatar de kain_tn
Expert éminent https://www.developpez.com
Le 19/09/2024 à 9:16
Citation Envoyé par totozor Voir le message
Ma question est probablement très bête mais : la meilleure manière que ChatGPT ne nous fournisse pas des informations préjudiciables n'est il pas qu'il ne les ingère pas?
La réponse est probablement qu'étant "capable de raisonnement" si on ne lui donne pas la recette il sera quand même capable de la reproduire.
Mais certaines informations ne sont elles pas suffisamment délicates pour qu'elles deviennent très vagues : "Il ne faut pas mélanger A avec B parce que c'est dangereux". Dangereux regroupant toxique, explosif, corrosif, etc

ChatGPT s'est probablement amélioré depuis mais fut un temps il suffisait de décomposer le l'objectif en sous objectifs puis de lui demander de résumer les dernières réponses : sa conclusion ressemblait "Allez aux USA"
Pire: avec ses hallucinations, tu vas finir par lui demander une recette de cuisine pour te retrouver avec du poison
0  0 
Avatar de onilink_
Membre émérite https://www.developpez.com
Le 19/09/2024 à 10:56
Citation Envoyé par totozor Voir le message
Ma question est probablement très bête mais : la meilleure manière que ChatGPT ne nous fournisse pas des informations préjudiciables n'est il pas qu'il ne les ingère pas?
La réponse est probablement qu'étant "capable de raisonnement" si on ne lui donne pas la recette il sera quand même capable de la reproduire.
Mais certaines informations ne sont elles pas suffisamment délicates pour qu'elles deviennent très vagues : "Il ne faut pas mélanger A avec B parce que c'est dangereux". Dangereux regroupant toxique, explosif, corrosif, etc

ChatGPT s'est probablement amélioré depuis mais fut un temps il suffisait de décomposer le l'objectif en sous objectifs puis de lui demander de résumer les dernières réponses : sa conclusion ressemblait "Allez aux USA"
Le dataset est bien trop gros pour enlever des informations précises. De ce que j'ai pu lire, ils ont récupéré tout ce qui était accessible sur internet.

Et comme tu le dis pertinemment, plus le modèle est efficace, et plus il sera capable d'inférer des données même si elles n'existent pas directement dans le dataset.
Je me souviens aussi que Robert Miles de la chaîne youtube Robert Miles AI Safety en parlait.
Ses vidéos sont très intéressantes d'ailleurs, mais en anglais.
0  0 
Avatar de Gluups
Membre émérite https://www.developpez.com
Le 19/09/2024 à 17:28
Citation Envoyé par kain_tn Voir le message
Pire: avec ses hallucinations, tu vas finir par lui demander une recette de cuisine pour te retrouver avec du poison
C'est sûr qu'avec un s en plus ou en moins, il y a moyen de faire des miracles.

Il m'a semblé que c'était bien où tu voulais en venir, d'ailleurs ?
0  0