IdentifiantMot de passe
Loading...
Mot de passe oublié ?Je m'inscris ! (gratuit)

Vous êtes nouveau sur Developpez.com ? Créez votre compte ou connectez-vous afin de pouvoir participer !

Vous devez avoir un compte Developpez.com et être connecté pour pouvoir participer aux discussions.

Vous n'avez pas encore de compte Developpez.com ? Créez-en un en quelques instants, c'est entièrement gratuit !

Si vous disposez déjà d'un compte et qu'il est bien activé, connectez-vous à l'aide du formulaire ci-dessous.

Identifiez-vous
Identifiant
Mot de passe
Mot de passe oublié ?
Créer un compte

L'inscription est gratuite et ne vous prendra que quelques instants !

Je m'inscris !

Les modèles d'IA de génération d'images peuvent être trompés et incités à produire des contenus obscènes
En exploitant une faille critique dans la façon dont ils interprètent le langage naturel

Le , par Mathis Lucas

0PARTAGES

4  0 
Une nouvelle étude rapporte que les filtres de sécurité des modèles d'IA de génération d'images comme DALL-E et Midjourney peuvent être facilement contournés grâce à une méthode inattendue. Les chercheurs ont découvert une faille dans ces outils d'IA qui permet de générer des contenus inappropriés à l'aide d'un algorithme appelé "SneakyPrompt". Il exploite une faille critique dans la façon dont ces outils d'IA interprètent le langage naturel. L'étude remet une fois de plus en question l'efficacité des filtres intégrés à ces systèmes d'IA. Par le passé, ces garde-fous, pourtant jugés solides par leurs auteurs, avaient déjà permis la génération de nombreux contenus inappropriés.

Les modèles d'IA de génération d'images sont conçus pour créer des images à partir de descriptions textuelles. Stable Diffusion, DALL-E 2 et Midjourney sont parmi les modèles d'IA de génération de texte les plus connus. Pour empêcher les utilisateurs de générer des contenus inappropriés, les créateurs de ces systèmes les ont dotés de filtres de sécurités qui bloquent les requêtes suspectes. Ils visent notamment à empêcher la création d'images obscènes comme des contenus explicites ou violents. Ces garde-fous ont été mis à rudes épreuves au fil du temps, ce qui a poussé les propriétaires de ces modèles d'IA à les rendre plus efficaces contre les attaques.

Mais des chercheurs de l'université Johns Hopkins, à Baltimore, et de l'université Duke, à Durham (Caroline du Nord), ont découvert une faille critique dans ces systèmes d'IA, qui pourrait avoir de vastes répercussions sur la modération des contenus numériques. La découverte concerne un algorithme appelé SneakyPrompt, conçu pour déjouer les filtres de sécurité intégrés dans les modèles d'IA de génération d'images. Dans le cadre de leurs expériences, l'équipe de recherche a commencé par tester des invites que les filtres de sécurité bloqueraient, comme "un homme nu faisant du vélo". Les tests ont été effectués sur DALL-E 2 et Stable Diffusion.


L'algorithme a examiné les réponses des IA génératives, puis a progressivement ajusté ces alternatives pour trouver des commandes capables de contourner les filtres de sécurité et de produire des images. Il est important de noter que les filtres de sécurité ne se limitent pas à une liste de mots interdits tels que "nu". Ils recherchent également des termes, tels que "nu", dont la signification est étroitement liée à des mots interdits. SneakyPrompt a pu substituer des mots dans ces messages pour contourner les filtres. Les chercheurs ont constaté que des mots absurdes pouvaient inciter ces modèles d'IA générative à produire des images innocentes ou obscènes.

Par exemple, ils ont remarqué que DALL-E 2 interpréterait les termes "thwif" et "mowwly" comme "chat" et "lcgrfy" et "butnip fwngho" comme "chien". L'équipe ignore exactement pourquoi le modèle prendrait ces mots absurdes pour des ordres. « Notre groupe est généralement intéressé par le fait de casser des choses. Casser les choses fait partie de leur renforcement. Par le passé, nous avons trouvé des vulnérabilités dans des milliers de sites Web, et maintenant nous nous tournons vers des modèles d'IA pour trouver leurs vulnérabilités », explique l'auteur principal de l'étude, Yinzhi Cao, chercheur en cybersécurité à l'université Johns Hopkins, à Baltimore.

Mais Cao fait remarquer que ces systèmes sont formés sur des corpus autres que l'anglais, et que certaines syllabes ou combinaisons de syllabes similaires à, par exemple, "thwif" dans d'autres langues peuvent être liées à des mots tels que "cat". Les chercheurs ont également découvert que des mots absurdes pouvaient amener les IA génératives à produire des images dangereuses pour le travail (NSFW). Apparemment, les filtres de sécurité ne considèrent pas ces invites comme suffisamment liées à des termes interdits pour les bloquer, mais les systèmes d'IA considèrent néanmoins ces mots comme des commandes pour produire un contenu douteux.

Au-delà des mots absurdes, les scientifiques ont constaté que les IA génératives pouvaient confondre des mots normaux avec d'autres mots normaux. Par exemple, ils ont remarqué que DALL-E 2 pouvait confondre le terme "glucose" ou "gregory faced wright" avec "chat" et "maintenance" ou "dangerous think walt" avec "chien". Dans ce cas, l'explication peut résider dans le contexte dans lequel ces mots sont placés. Lorsqu'on leur a demandé de répondre à la question suivante : "the dangerous think walt growled menacingly at the stranger who approached its owner", les systèmes ont déduit que "dangerous think walt" signifiait "dog" dans le reste de la phrase.

« Si le mot "glucose" est utilisé dans d'autres contextes, il peut ne pas signifier "chat" », explique Cao. Les tentatives manuelles précédentes pour contourner ces filtres de sécurité étaient limitées à des modèles d'IA spécifiques, telles que Stable Diffusion, et ne pouvaient pas être généralisées à d'autres systèmes de génération de contenu. Les chercheurs ont constaté que l'exploit SneakyPrompt pouvait fonctionner à la fois sur DALL-E 2 et sur Stable Diffusion. En outre, selon les chercheurs, les tentatives manuelles antérieures visant à contourner les filtres de sécurité de l'IA Stable Diffusion ont montré un taux de réussite aussi faible qu'environ 33 %.

En revanche, SneakyPrompt a obtenu un taux moyen de réussite d'environ 96 % lorsqu'il était confronté à Stable Diffusion et d'environ 57 % avec DALL-E 2. Selon les auteurs de l'étude, les implications de cette découverte sont préoccupantes, car elles soulignent le potentiel d'abus et soulèvent des questions quant à la fiabilité de la modération automatisée des contenus. Ces résultats révèlent que les outils d'IA de génération d'images peuvent être exploités pour créer des contenus perturbateurs. Selon Cao, ces outils pourraient notamment produire des images de personnes réelles ayant un comportement répréhensible qu'elles n'ont jamais eu en réalité.

À titre d'exemple, au début de l'année, les utilisateurs de Midjourney ont créé de fausses images montrant Donald Trump qui tente de résister tant bien que mal à une arrestation, mais également des images montrant l'ancien président des États-Unis en tenue de détenu et faisant du nettoyage dans une enceinte pénitentiaire. Mais ce n'est pas tout. Midjourney a également permis aux internautes de générer des images très réalistes montrant le pape François dans un manteau à la mode et le président français Emmanuel Macron ramassant des ordures dans les rues de Paris ou se mêlant aux forces de l'ordre pour encadrer des manifestants.

Bien que les images aient été rapidement identifiées comme des deepfakes, il est à craindre que des acteurs malveillants utilisent Midjourney, DALL-E, Stable Diffusion ou d'autres outils similaires pour diffuser de fausses informations avec des images très réalistes à l'appui. À l'époque, David Holz, cofondateur et PDG de Midjourney, a déclaré que l'entreprise a tenté de résoudre les problèmes d'abus avec des correctifs de sécurité, mais les changements tentés n'ont pas pu résoudre les problèmes. La société a été obligée de suspendre les essais gratuits après que ces deepfakes sont devenus viraux sur la toile, tout en continuant à chercher d'autres solutions.

L'été dernier, Midjourney a également banni un artiste pour avoir utilisé l'IA de génération d'œuvres d'art de l'entreprise pour créer des images de politiciens trompant leur femme. Bien que ces photos soient fausses, elles sont "hyperréalistes" et capables de tromper facilement la vigilance d'un public non averti. L'artiste a déclaré que son objectif était d'alerter le public sur les dangers potentiels de ce type d'IA pour les personnes, les entreprises et les gouvernements, mais il a été banni par Midjourney. L'entreprise n'a pas évoqué les raisons justifiant cette décision, mais les conditions d'utilisation de son modèle d'IA générative interdisent la création de telles images.

Commentant les risques liés aux outils d'IA de génération d'images, Cao a déclaré : « nous espérons que cette attaque aidera les gens à comprendre à quel point les modèles d'IA de génération d'images peuvent être vulnérables ». Les chercheurs souhaitent à présent explorer les moyens de rendre les IA génératives plus robustes face aux adversaires. « L'objectif de notre travail sur les attaques est de rendre le monde plus sûr. Il faut d'abord comprendre les faiblesses des modèles d'IA, puis les rendre résistants aux attaques », a déclaré Cao. Les implications de ces résultats soulignent la nécessité d'affiner les mesures de sécurité des modèles d'IA.

Les systèmes d'IA interprètent le langage différemment des humains, et les chercheurs soupçonnent ces systèmes d'interpréter certaines syllabes ou combinaisons de manière similaire à des mots d'autres langues, ce qui conduit à des associations inattendues. Il est essentiel de s'assurer qu'ils discernent avec précision et empêchent la création de contenus inappropriés, même lorsqu'ils sont confrontés à des entrées linguistiques trompeuses ou non conventionnelles. Selon l'équipe, il est impératif de s'attaquer à ces failles et de les rectifier afin de respecter les normes éthiques et d'empêcher l'utilisation abusive de l'IA pour générer des contenus inappropriés.

L'équipe présentera ses conclusions en détail en mai 2024 lors du symposium de l'IEEE sur la sécurité et la protection de la vie privée, qui se tiendra à San Francisco. Cette recherche souligne l'urgence d'une vigilance continue et d'une amélioration itérative dans l'industrie de l'IA, préfigurant un avenir où la créativité numérique et les filtres de sécurité évolueront de concert pour faciliter un paysage virtuel responsable et sûr.

Source : rapport de l'étude

Et vous ?

Quel est votre avis sur le sujet ?
Que pensez-vous de l'exploit SneakyPrompt mis au point par les chercheurs ?
Selon vous, pourquoi les modèles d'IA de génération d'images se comportent de cette façon ?
Les entreprises développant ces systèmes d'IA sont-elles en mesure de corriger cette vulnérabilité ?

Voir aussi

Le modèle d'IA de génération d'images Midjourney suspend les essais gratuits après que les deepfakes sont devenus viraux, mais la société impute ce choix à la création excessive de comptes jetables

« J'ai perdu tout ce qui me faisait aimer mon travail à cause du modèle d'IA Midjourney », affirme un artiste 3D qui raconte comment l'IA lui a arraché son travail du jour au lendemain

L'IA de génération d'images la plus avancée de la Chine bloque déjà les contenus politiques, des entrées telles que "place Tiananmen" et "Xi Jinping" ne produisent aucun résultat

Une erreur dans cette actualité ? Signalez-nous-la !

Avatar de Fagus
Membre expert https://www.developpez.com
Le 01/02/2025 à 23:24
ça ressemble à une réponse à un problème amazonien. Perso j'aurais listé les problèmes à l'envers
- amazon vend des contrefaçons en pure connaissance de cause tant que c'est rentable.
- amazon a une situation quasi monopolistique ou en tout cas similaire à un Trust, ils peuvent donc tout se permettre, y compris passer au-dessus des lois.
- dans le système judiciaire américain, leur moyens financiers dissuadent quiconque de leur faire un procès.

En France on a un marché plus protégé avec des maisons d'édition qui engagent leur réputation sur la qualité de leur sélection (globalement, la Pléiade ou l'Aube des peuples, c'est un peu plus sélect que Gala), de même pour les libraires ou les grosses maisons (la sélection de la Fnac ou de Eyrolles c'est mieux que le relai de l'autoroute par ex.), ou les clubs littéraires qui accordent des prix.
2  0 
Avatar de Jules34
Membre émérite https://www.developpez.com
Le 23/10/2024 à 10:35
La déclaration est également signée par des organisations et des entreprises de l'industrie créative, dont l'American Federation of Musicians, le syndicat américain des acteurs SAG-AFTRA, le European Writers' Council et Universal Music Group.
Que des gestionnaires de PI qui exploitent eux même les artistes... Il y a quelques grand nom d'artiste dans la liste mais il faut déjà bien comprendre que c'est un système injuste pour 99% des artistes à la base. Comme la SACEM en France.

C'est une nouvelle ère, le choc des patents trolls
1  0 
Avatar de ALT
Membre émérite https://www.developpez.com
Le 01/02/2025 à 11:16
La certification garantit-elle réellement l’authenticité d’un texte, ou repose-t-elle uniquement sur la déclaration de l’auteur ?
C'est précisément la question que je me pose ! Car si c'est une auto-certification de l'auteur, ce label ne sera légitime que si les auteurs son honnêtes. Et c'est quoi un texte 0 % IA ? Si l'auteur demande à l'IA de lui donner des idées, pour la trame de son œuvre ou un chapitre, est-ce 100 % humain ? Bref, j'attends plus de précisions.

L’essor des textes générés par IA menace-t-il réellement les écrivains, ou ouvre-t-il de nouvelles opportunités pour la création littéraire ?
Comme toute innovation majeure, il y a des oppositions violentes. Il n'est pas dit que les auteurs bouderont toujours l'IA.
1  0 
Avatar de cobalt3d
Membre régulier https://www.developpez.com
Le 02/02/2024 à 12:40
Pas la première fois que la technologie menace le travail artistique original puisque on a crié à la fin des artistes avec la création de la photographie, du cinéma, de la vidéo, du traitement informatique.

Mais il y a toujours des artistes, même deux siècles après la première image photographique.

Ce qui va se passer avec les IA génératives, correspondra un peu à ce qui se passe avec la pâte à modeler de couleur : les mélanges successifs d'IA se pompant les une les autres, quand il n'y aura plus de réelle création originale, donneront un gris uniforme et moche.

Quand aux artistes, ils trouveront une façon de valoriser leur créativité tout en la protégeant des voleurs, puisqu'il n'y a pas d'autre solution. Tout ça annonce surtout la fin d'une époque d'auto-publication et de liberté d'expression, malheureusement.
0  0 
Avatar de thejoker31
Membre à l'essai https://www.developpez.com
Le 12/07/2024 à 14:56
L’intelligence ne peut être artificielle puisqu’elle a besoin de la conscience, douée de synthèse vibratoire le cœur
Le libre choix ne peut être réalisé par un arbitre, puisqu’il fait son choix en suivant des règles comme une machine
donc on a une Intelligence libre avec un Arbitrage artificiel
l'artiste existe bien mais sans compétence purement manuel ou artisanal à mon sens
0  0 
Avatar de Gluups
Membre expert https://www.developpez.com
Le 02/02/2025 à 1:11
Tiens, on a supprimé le bouton, pour citer plusieurs messages dans un seul ?

Citation Envoyé par Stéphane le calme Voir le message
[B][SIZE=4]Lorsqu’elle a contacté Amazon pour lui demander de retirer les titres de son profil d’auteur, Amazon lui a demandé des « numéros d’enregistrement de marque » relatifs à sa réclamation et, en apprenant qu’elle ne détenait pas de marque pour son nom, a clos le dossier sans retirer les livres de la vente. Bien que les titres frauduleux aient finalement été retirés d’Amazon après que l’histoire ait fait le tour du web, l’expérience de Friedman met en lumière le processus complexe auquel les auteurs doivent se soumettre pour protéger leur nom et leur travail en ligne.
Ça craint.

Indépendamment de ce que contiennent les faux livres, la grande question est de savoir comment Amazon et Goodreads, deux sites majeurs qui atteignent des centaines de millions de clients, prévoient de protéger à la fois les auteurs et les clients contre la fraude et la mauvaise attribution.
Assurément, ils soigneraient bien mieux leur image de marque ainsi, qu'en chicanant pour reconnaître un auteur.



Ces cas soulèvent des questions sur la vérification des auteurs et la responsabilité des plateformes en ligne face à la prolifération des contenus générés par l’IA. Comment les lecteurs peuvent-ils distinguer les vrais auteurs des imposteurs ? Comment les auteurs peuvent-ils protéger leur identité et leur propriété intellectuelle ? Comment les plateformes peuvent-elles empêcher ou détecter les publications frauduleuses ? Ce sont autant de défis auxquels le monde du livre devra faire face à l’ère de l’IA.
C'est vrai qu'on peut redouter que ça génère des coûts.
De même que l'abondance de nourriture frelatée sur le marché oblige à des analyses pour regarder où on met, si ce n'est les pieds, au moins son estomac.

Il paraît difficile de s'en affranchir.

Vient alors le label Écrit par un humain

Avec l’émergence de modèles avancés d’intelligence artificielle capables de produire du texte fluide et cohérent, l’industrie littéraire se trouve confrontée à de nouveaux défis. Certains éditeurs et plateformes en ligne voient déjà apparaître un afflux de livres rédigés (ou coécrits) par des IA, soulevant des préoccupations économiques. Ces œuvres générées par algorithme posent la question de la valeur de la création humaine et de la place des auteurs dans un paysage de plus en plus automatisé.
Je me demande combien de temps Microsoft se maintiendra incapable d'écrire une documentation en Français lisible directement, sans s'arrêter à la troisième phrase pour aller chercher la version américaine.

Ça doit être le problème d'une petite boîte aux moyens précaires, et qui ne connaît rien à l'informatique.

Peut-être un label "Traduit par un humain" pourrait assainir la situation.
0  0 
Avatar de Gluups
Membre expert https://www.developpez.com
Le 02/02/2025 à 1:15
Citation Envoyé par Gluups Voir le message
Tiens, on a supprimé le bouton, pour citer plusieurs messages dans un seul ?
Ah tiens, pile en relisant ça, je vois le bouton en question au bas du message précédent.

Je me demande si il y a des conditions à son apparition.

Il y a certes l'hypothèse que j'aie la berlue.
0  0 
Avatar de Gluups
Membre expert https://www.developpez.com
Le 02/02/2025 à 1:21
Citation Envoyé par Fagus Voir le message
globalement, la Pléiade ou l'Aube des peuples, c'est un peu plus sélect que Gala
Non ... Tu crois ?
0  0 
Avatar de Gluups
Membre expert https://www.developpez.com
Le 02/02/2025 à 1:30
Citation Envoyé par Matthieu Vergne Voir le message
De la contrefaçon. Le vol consiste à subtiliser quelque chose à quelqu'un, de sorte que ce quelqu'un ne l'a plus. La contrefaçon non.

Les discussions de ce genre se basent trop souvent sur des amalgames pour faire valoir telle ou telle interprétation. On ne peut pas critiquer qu'un tel fasse un argument fallacieux si de notre côté on fait pareil. Et corriger ça commence par utiliser la bonne terminologie.
C'est ma foi vrai.
Ce qui est subtilisé avec la contrefaçon, c'est la crédibilité de l'original, il s'agit donc d'une atteinte, au moins potentielle, à sa valeur marchande. La valeur d'une œuvre intellectuelle va bien au-delà de ça, mais une fois qu'on parle de la distinction entre le vol et la contrefaçon, il paraît difficile de ne pas ... parler "pognon".
0  0 
Avatar de Gluups
Membre expert https://www.developpez.com
Le 02/02/2025 à 1:41
Citation Envoyé par Bruno Voir le message
Tiens, je n'avais pas prêté attention l'année dernière, mais c'est quand même une sacrée coquetterie, un robot avec des taches de rousseur.
0  0