IdentifiantMot de passe
Loading...
Mot de passe oublié ?Je m'inscris ! (gratuit)

Vous êtes nouveau sur Developpez.com ? Créez votre compte ou connectez-vous afin de pouvoir participer !

Vous devez avoir un compte Developpez.com et être connecté pour pouvoir participer aux discussions.

Vous n'avez pas encore de compte Developpez.com ? Créez-en un en quelques instants, c'est entièrement gratuit !

Si vous disposez déjà d'un compte et qu'il est bien activé, connectez-vous à l'aide du formulaire ci-dessous.

Identifiez-vous
Identifiant
Mot de passe
Mot de passe oublié ?
Créer un compte

L'inscription est gratuite et ne vous prendra que quelques instants !

Je m'inscris !

Les modèles d'IA de génération d'images peuvent être trompés et incités à produire des contenus obscènes
En exploitant une faille critique dans la façon dont ils interprètent le langage naturel

Le , par Mathis Lucas

100PARTAGES

4  0 
Les modèles d'IA de génération d'images peuvent être trompés et incités à produire des contenus obscènes
en exploitant une faille critique dans la façon dont ils interprètent le langage naturel

Une nouvelle étude rapporte que les filtres de sécurité des modèles d'IA de génération d'images comme DALL-E et Midjourney peuvent être facilement contournés grâce à une méthode inattendue. Les chercheurs ont découvert une faille dans ces outils d'IA qui permet de générer des contenus inappropriés à l'aide d'un algorithme appelé "SneakyPrompt". Il exploite une faille critique dans la façon dont ces outils d'IA interprètent le langage naturel. L'étude remet une fois de plus en question l'efficacité des filtres intégrés à ces systèmes d'IA. Par le passé, ces garde-fous, pourtant jugés solides par leurs auteurs, avaient déjà permis la génération de nombreux contenus inappropriés.

Les modèles d'IA de génération d'images sont conçus pour créer des images à partir de descriptions textuelles. Stable Diffusion, DALL-E 2 et Midjourney sont parmi les modèles d'IA de génération de texte les plus connus. Pour empêcher les utilisateurs de générer des contenus inappropriés, les créateurs de ces systèmes les ont dotés de filtres de sécurités qui bloquent les requêtes suspectes. Ils visent notamment à empêcher la création d'images obscènes comme des contenus explicites ou violents. Ces garde-fous ont été mis à rudes épreuves au fil du temps, ce qui a poussé les propriétaires de ces modèles d'IA à les rendre plus efficaces contre les attaques.

Mais des chercheurs de l'université Johns Hopkins, à Baltimore, et de l'université Duke, à Durham (Caroline du Nord), ont découvert une faille critique dans ces systèmes d'IA, qui pourrait avoir de vastes répercussions sur la modération des contenus numériques. La découverte concerne un algorithme appelé SneakyPrompt, conçu pour déjouer les filtres de sécurité intégrés dans les modèles d'IA de génération d'images. Dans le cadre de leurs expériences, l'équipe de recherche a commencé par tester des invites que les filtres de sécurité bloqueraient, comme "un homme nu faisant du vélo". Les tests ont été effectués sur DALL-E 2 et Stable Diffusion.



L'algorithme a examiné les réponses des IA génératives, puis a progressivement ajusté ces alternatives pour trouver des commandes capables de contourner les filtres de sécurité et de produire des images. Il est important de noter que les filtres de sécurité ne se limitent pas à une liste de mots interdits tels que "nu". Ils recherchent également des termes, tels que "nu", dont la signification est étroitement liée à des mots interdits. SneakyPrompt a pu substituer des mots dans ces messages pour contourner les filtres. Les chercheurs ont constaté que des mots absurdes pouvaient inciter ces modèles d'IA générative à produire des images innocentes ou obscènes.

Par exemple, ils ont remarqué que DALL-E 2 interpréterait les termes "thwif" et "mowwly" comme "chat" et "lcgrfy" et "butnip fwngho" comme "chien". L'équipe ignore exactement pourquoi le modèle prendrait ces mots absurdes pour des ordres. « Notre groupe est généralement intéressé par le fait de casser des choses. Casser les choses fait partie de leur renforcement. Par le passé, nous avons trouvé des vulnérabilités dans des milliers de sites Web, et maintenant nous nous tournons vers des modèles d'IA pour trouver leurs vulnérabilités », explique l'auteur principal de l'étude, Yinzhi Cao, chercheur en cybersécurité à l'université Johns Hopkins, à Baltimore.

Mais Cao fait remarquer que ces systèmes sont formés sur des corpus autres que l'anglais, et que certaines syllabes ou combinaisons de syllabes similaires à, par exemple, "thwif" dans d'autres langues peuvent être liées à des mots tels que "cat". Les chercheurs ont également découvert que des mots absurdes pouvaient amener les IA génératives à produire des images dangereuses pour le travail (NSFW). Apparemment, les filtres de sécurité ne considèrent pas ces invites comme suffisamment liées à des termes interdits pour les bloquer, mais les systèmes d'IA considèrent néanmoins ces mots comme des commandes pour produire un contenu douteux.

Au-delà des mots absurdes, les scientifiques ont constaté que les IA génératives pouvaient confondre des mots normaux avec d'autres mots normaux. Par exemple, ils ont remarqué que DALL-E 2 pouvait confondre le terme "glucose" ou "gregory faced wright" avec "chat" et "maintenance" ou "dangerous think walt" avec "chien". Dans ce cas, l'explication peut résider dans le contexte dans lequel ces mots sont placés. Lorsqu'on leur a demandé de répondre à la question suivante : "the dangerous think walt growled menacingly at the stranger who approached its owner", les systèmes ont déduit que "dangerous think walt" signifiait "dog" dans le reste de la phrase.

« Si le mot "glucose" est utilisé dans d'autres contextes, il peut ne pas signifier "chat" », explique Cao. Les tentatives manuelles précédentes pour contourner ces filtres de sécurité étaient limitées à des modèles d'IA spécifiques, telles que Stable Diffusion, et ne pouvaient pas être généralisées à d'autres systèmes de génération de contenu. Les chercheurs ont constaté que l'exploit SneakyPrompt pouvait fonctionner à la fois sur DALL-E 2 et sur Stable Diffusion. En outre, selon les chercheurs, les tentatives manuelles antérieures visant à contourner les filtres de sécurité de l'IA Stable Diffusion ont montré un taux de réussite aussi faible qu'environ 33 %.

En revanche, SneakyPrompt a obtenu un taux moyen de réussite d'environ 96 % lorsqu'il était confronté à Stable Diffusion et d'environ 57 % avec DALL-E 2. Selon les auteurs de l'étude, les implications de cette découverte sont préoccupantes, car elles soulignent le potentiel d'abus et soulèvent des questions quant à la fiabilité de la modération automatisée des contenus. Ces résultats révèlent que les outils d'IA de génération d'images peuvent être exploités pour créer des contenus perturbateurs. Selon Cao, ces outils pourraient notamment produire des images de personnes réelles ayant un comportement répréhensible qu'elles n'ont jamais eu en réalité.

À titre d'exemple, au début de l'année, les utilisateurs de Midjourney ont créé de fausses images montrant Donald Trump qui tente de résister tant bien que mal à une arrestation, mais également des images montrant l'ancien président des États-Unis en tenue de détenu et faisant du nettoyage dans une enceinte pénitentiaire. Mais ce n'est pas tout. Midjourney a également permis aux internautes de générer des images très réalistes montrant le pape François dans un manteau à la mode et le président français Emmanuel Macron ramassant des ordures dans les rues de Paris ou se mêlant aux forces de l'ordre pour encadrer des manifestants.

Bien que les images aient été rapidement identifiées comme des deepfakes, il est à craindre que des acteurs malveillants utilisent Midjourney, DALL-E, Stable Diffusion ou d'autres outils similaires pour diffuser de fausses informations avec des images très réalistes à l'appui. À l'époque, David Holz, cofondateur et PDG de Midjourney, a déclaré que l'entreprise a tenté de résoudre les problèmes d'abus avec des correctifs de sécurité, mais les changements tentés n'ont pas pu résoudre les problèmes. La société a été obligée de suspendre les essais gratuits après que ces deepfakes sont devenus viraux sur la toile, tout en continuant à chercher d'autres solutions.

L'été dernier, Midjourney a également banni un artiste pour avoir utilisé l'IA de génération d'œuvres d'art de l'entreprise pour créer des images de politiciens trompant leur femme. Bien que ces photos soient fausses, elles sont "hyperréalistes" et capables de tromper facilement la vigilance d'un public non averti. L'artiste a déclaré que son objectif était d'alerter le public sur les dangers potentiels de ce type d'IA pour les personnes, les entreprises et les gouvernements, mais il a été banni par Midjourney. L'entreprise n'a pas évoqué les raisons justifiant cette décision, mais les conditions d'utilisation de son modèle d'IA générative interdisent la création de telles images.

Commentant les risques liés aux outils d'IA de génération d'images, Cao a déclaré : « nous espérons que cette attaque aidera les gens à comprendre à quel point les modèles d'IA de génération d'images peuvent être vulnérables ». Les chercheurs souhaitent à présent explorer les moyens de rendre les IA génératives plus robustes face aux adversaires. « L'objectif de notre travail sur les attaques est de rendre le monde plus sûr. Il faut d'abord comprendre les faiblesses des modèles d'IA, puis les rendre résistants aux attaques », a déclaré Cao. Les implications de ces résultats soulignent la nécessité d'affiner les mesures de sécurité des modèles d'IA.

Les systèmes d'IA interprètent le langage différemment des humains, et les chercheurs soupçonnent ces systèmes d'interpréter certaines syllabes ou combinaisons de manière similaire à des mots d'autres langues, ce qui conduit à des associations inattendues. Il est essentiel de s'assurer qu'ils discernent avec précision et empêchent la création de contenus inappropriés, même lorsqu'ils sont confrontés à des entrées linguistiques trompeuses ou non conventionnelles. Selon l'équipe, il est impératif de s'attaquer à ces failles et de les rectifier afin de respecter les normes éthiques et d'empêcher l'utilisation abusive de l'IA pour générer des contenus inappropriés.

L'équipe présentera ses conclusions en détail en mai 2024 lors du symposium de l'IEEE sur la sécurité et la protection de la vie privée, qui se tiendra à San Francisco. Cette recherche souligne l'urgence d'une vigilance continue et d'une amélioration itérative dans l'industrie de l'IA, préfigurant un avenir où la créativité numérique et les filtres de sécurité évolueront de concert pour faciliter un paysage virtuel responsable et sûr.

Source : rapport de l'étude

Et vous ?

Quel est votre avis sur le sujet ?
Que pensez-vous de l'exploit SneakyPrompt mis au point par les chercheurs ?
Selon vous, pourquoi les modèles d'IA de génération d'images se comportent de cette façon ?
Les entreprises développant ces systèmes d'IA sont-elles en mesure de corriger cette vulnérabilité ?

Voir aussi

Le modèle d'IA de génération d'images Midjourney suspend les essais gratuits après que les deepfakes sont devenus viraux, mais la société impute ce choix à la création excessive de comptes jetables

« J'ai perdu tout ce qui me faisait aimer mon travail à cause du modèle d'IA Midjourney », affirme un artiste 3D qui raconte comment l'IA lui a arraché son travail du jour au lendemain

L'IA de génération d'images la plus avancée de la Chine bloque déjà les contenus politiques, des entrées telles que "place Tiananmen" et "Xi Jinping" ne produisent aucun résultat
Vous avez lu gratuitement 3 022 articles depuis plus d'un an.
Soutenez le club developpez.com en souscrivant un abonnement pour que nous puissions continuer à vous proposer des publications.

Une erreur dans cette actualité ? Signalez-nous-la !

Avatar de Anselme45
Membre extrêmement actif https://www.developpez.com
Le 04/03/2026 à 16:15
Marrant... Certains voudraient donc que la propriété intellectuelle des IA soit protégées alors que ces IA ont été développées en VIOLANT la propriété intellectuelle des autres?

On arrête pas le progrès
7  2 
Avatar de shenron666
Expert confirmé https://www.developpez.com
Le 06/03/2026 à 11:09
Citation Envoyé par Anselme45 Voir le message
Marrant... Certains voudraient donc que la propriété intellectuelle des IA soit protégées alors que ces IA ont été développées en VIOLANT la propriété intellectuelle des autres?

On arrête pas le progrès
Citation Envoyé par popo Voir le message
Entièrement d'accord avec toi Anselme45.
Il y en a qui ont vraiment un sacré culot.
Je suis sidéré que vos commentaires aient reçu des pouces négatifs
ça laisse perplexe sur la mentalité ou le niveau intellectuel de certains
5  0 
Avatar de shenron666
Expert confirmé https://www.developpez.com
Le 06/03/2026 à 11:18
Citation Envoyé par calvaire Voir le message
l'ia est capable en 2026 de faire un code de meilleur qualité ou une musique de meilleur qualité que la moyenne, c'est plus un critère.
meilleure (avec un e) qualité ? non, l'ia code plus vite mais la qualité clairement nécessite une revue et des ajustements

Citation Envoyé par calvaire Voir le message
Pour les photos, 100% des photos sur smartphones sont des photos ia
100% ? c'est totalement faux
à la maison sur 4 smartphones, aucun n'utilise l'ia (trop anciens)

Citation Envoyé par calvaire Voir le message
Pour les videos, on commence à arriver a faire des vidéos plus vrai que vrai, ou des meilleurs vfx que le seigneur des anneaux
source ?
après quelques secondes on remarque des incohérences dans les mouvements sur la grande majorité des vidéos générées par ia

Citation Envoyé par calvaire Voir le message
Moi je veux qu'on m'explique comment on va dire ce code c'est fait pas une ia donc non protegable, ou cette image/musique est faite par ia ?
Je génère un prompte, et j'ajoute un petit filtre dans photoshop et c'est bon c'est une image humaine ? Une photo sur smartphone c'est quoi ? car toutes les photos des smartphones passe dans un npu et une ia qui "devine" les détails désormais.
encore une fois, tous les smartphones n'ont pas de npu, tu généralises beaucoup trop

Citation Envoyé par calvaire Voir le message
On va juste rentrer dans une société ou 100% des personnes vont utiliser l'ia mais personne ne va l'avouer (musiciens, codeurs, graphistes, studio d'effet spatiaux...), on le voit déjà sur steams, peu de studios avouent utiliser l'ia car souvent ça provoque un bad buzz. Mais il n'y a pas de mal, l'ia genre de bonne musique d'ambiances, de beau décors, permet de générer plus vite le code...etc. Il faut arrêter de se voiler la face et de cracher dans ce formidable outil.
il est impératif que des lois encadrent l'utilisation en imposant notamment que l'auteur indique explicitement lorsqu'une oeuvre est générée par ia
un formidable outil peut vite dégénérer en outil "mortel"
5  0 
Avatar de calvaire
Expert éminent https://www.developpez.com
Le 27/05/2025 à 11:00
ça ne changera pas grand chose.
le monde livre, du jeux vidéos ou de la musique, seules 1% perce les autres sont des inconnus.

le plus important c'est de toute façon pas la rédaction, mais les idées et le style d'écriture.
Aujourd'hui un esprit dérangé, pourrait avec ces idées borderline crée de super bouquin originaux grâce a chatgpt.

Utiliser chatgpt n'est de toute façon pas magique, déjà il est incapable d’écrire un roman complet, il faut découper en chapitre (et encore) et il faut s'y prendre plusieurs fois pour arriver a un style intéressant et pas du chatgpt barbant.

Pour avoir testé l'exercice, un petit livre de 10 pages a4, finalement, j'en suis arrivé a trouver plus rapide d'écrire a l’arrache mon texte moi même et ensuite de demander à chatgpt de me l'écrire proprement sans faute d'orthographe/syntaxe/grammaire.
J'ai vendu mon bouquin sur amazon à 5€, j'ai eu une 50aines de clients.

Je n'aurais jamais écris un livre sans chatgpt, je suis très mauvais en orthographe/grammaire et même pour structurer mon travail c'est pas simple.
c'est mon style de vie, mon bureau ressemble à ca:
5  1 
Avatar de popo
Expert confirmé https://www.developpez.com
Le 04/03/2026 à 17:02
Entièrement d'accord avec toi Anselme45.
Il y en a qui ont vraiment un sacré culot.
5  1 
Avatar de Fagus
Membre expert https://www.developpez.com
Le 01/02/2025 à 23:24
ça ressemble à une réponse à un problème amazonien. Perso j'aurais listé les problèmes à l'envers
- amazon vend des contrefaçons en pure connaissance de cause tant que c'est rentable.
- amazon a une situation quasi monopolistique ou en tout cas similaire à un Trust, ils peuvent donc tout se permettre, y compris passer au-dessus des lois.
- dans le système judiciaire américain, leur moyens financiers dissuadent quiconque de leur faire un procès.

En France on a un marché plus protégé avec des maisons d'édition qui engagent leur réputation sur la qualité de leur sélection (globalement, la Pléiade ou l'Aube des peuples, c'est un peu plus sélect que Gala), de même pour les libraires ou les grosses maisons (la sélection de la Fnac ou de Eyrolles c'est mieux que le relai de l'autoroute par ex.), ou les clubs littéraires qui accordent des prix.
3  0 
Avatar de ALT
Membre émérite https://www.developpez.com
Le 01/02/2025 à 11:16
La certification garantit-elle réellement l’authenticité d’un texte, ou repose-t-elle uniquement sur la déclaration de l’auteur ?
C'est précisément la question que je me pose ! Car si c'est une auto-certification de l'auteur, ce label ne sera légitime que si les auteurs son honnêtes. Et c'est quoi un texte 0 % IA ? Si l'auteur demande à l'IA de lui donner des idées, pour la trame de son œuvre ou un chapitre, est-ce 100 % humain ? Bref, j'attends plus de précisions.

L’essor des textes générés par IA menace-t-il réellement les écrivains, ou ouvre-t-il de nouvelles opportunités pour la création littéraire ?
Comme toute innovation majeure, il y a des oppositions violentes. Il n'est pas dit que les auteurs bouderont toujours l'IA.
2  0 
Avatar de virginieh
Membre expérimenté https://www.developpez.com
Le 04/07/2025 à 11:20
Ce qui est triste c'est qu'on laisse les humains faire des métiers pénibles et/ou dangereux et que l'IA sert à faire de "l'art"
3  1 
Avatar de totozor
Expert confirmé https://www.developpez.com
Le 02/03/2026 à 8:02
Citation Envoyé par ChristianRoberge Voir le message
Il ne faut pas oublier ici que l'IA a basé son apprentissage sur les œuvres existantes sans leur demander leur permission ni leur donner aucune compensation.
C'est pour ça que le système de Sony n'est qu'un sparadrap de mon point de vue.
L'artiste inconnu dont la musique inspire à 0% le tube IA de l'été devrait être rétribué malgré tout parce que sans lui l'IA (ou sa société) ne pourrait pas prétendre à être aussi performante.
Identifier l'artiste n'aide pas tant que ça parce que chaque artiste légitime contre son gré le "système IA"
Certain me diront que c'est extrêmes car cela voudrait dire que l'IA serait pas bani (Non profitable), Oui, mais est-ce que cela serait un grande perte pour nos sociétés et cultures.
Depuis quelques temps j'entends des jeunes groupes qui existent vraiment (présence en concert/festival etc) qui ont à la fois une identité musicale propre mais aussi un mélange très "IA compatible" et une composition très convenue.
Bref je soupçonne que certains musiciens utilisent l'IA pour leur écrire un tube qu'ils interprètent eux même.
Je me pose une vraie question par rapport à ces groupes:
Est ce que c'est moi qui délire à voir de l'IA partout? (Est ce que ce changement dans les jeunes groupes est un biais ou un vrai constat?)
Est-il mieux ou pareil d'avoir un groupe IA incarné qu'un groupe IA? (Ma réponse est que ça dépend de s'ils arrivent à se développer ensuite et proposent une musique vraiment intéressante. Je trouve normal qu'une jeune groupe fasse une première proposition convenue, moins pour la deuxième).
2  0 
Avatar de RenarddeFeu
Membre averti https://www.developpez.com
Le 06/03/2026 à 0:19
C'est un décision noble. Mais en pratique, il va être de plus en plus difficile de distinguer l'art généré avec ou créé sans IA.
2  0