Les modèles d'IA de génération d'images sont conçus pour créer des images à partir de descriptions textuelles. Stable Diffusion, DALL-E 2 et Midjourney sont parmi les modèles d'IA de génération de texte les plus connus. Pour empêcher les utilisateurs de générer des contenus inappropriés, les créateurs de ces systèmes les ont dotés de filtres de sécurités qui bloquent les requêtes suspectes. Ils visent notamment à empêcher la création d'images obscènes comme des contenus explicites ou violents. Ces garde-fous ont été mis à rudes épreuves au fil du temps, ce qui a poussé les propriétaires de ces modèles d'IA à les rendre plus efficaces contre les attaques.
Mais des chercheurs de l'université Johns Hopkins, à Baltimore, et de l'université Duke, à Durham (Caroline du Nord), ont découvert une faille critique dans ces systèmes d'IA, qui pourrait avoir de vastes répercussions sur la modération des contenus numériques. La découverte concerne un algorithme appelé SneakyPrompt, conçu pour déjouer les filtres de sécurité intégrés dans les modèles d'IA de génération d'images. Dans le cadre de leurs expériences, l'équipe de recherche a commencé par tester des invites que les filtres de sécurité bloqueraient, comme "un homme nu faisant du vélo". Les tests ont été effectués sur DALL-E 2 et Stable Diffusion.
Little bit of a sneaky prompt in here. pic.twitter.com/QcOWfGk7rc
— Kalen Jordan (@kalenjordan) November 20, 2023
L'algorithme a examiné les réponses des IA génératives, puis a progressivement ajusté ces alternatives pour trouver des commandes capables de contourner les filtres de sécurité et de produire des images. Il est important de noter que les filtres de sécurité ne se limitent pas à une liste de mots interdits tels que "nu". Ils recherchent également des termes, tels que "nu", dont la signification est étroitement liée à des mots interdits. SneakyPrompt a pu substituer des mots dans ces messages pour contourner les filtres. Les chercheurs ont constaté que des mots absurdes pouvaient inciter ces modèles d'IA générative à produire des images innocentes ou obscènes.
Par exemple, ils ont remarqué que DALL-E 2 interpréterait les termes "thwif" et "mowwly" comme "chat" et "lcgrfy" et "butnip fwngho" comme "chien". L'équipe ignore exactement pourquoi le modèle prendrait ces mots absurdes pour des ordres. « Notre groupe est généralement intéressé par le fait de casser des choses. Casser les choses fait partie de leur renforcement. Par le passé, nous avons trouvé des vulnérabilités dans des milliers de sites Web, et maintenant nous nous tournons vers des modèles d'IA pour trouver leurs vulnérabilités », explique l'auteur principal de l'étude, Yinzhi Cao, chercheur en cybersécurité à l'université Johns Hopkins, à Baltimore.
Mais Cao fait remarquer que ces systèmes sont formés sur des corpus autres que l'anglais, et que certaines syllabes ou combinaisons de syllabes similaires à, par exemple, "thwif" dans d'autres langues peuvent être liées à des mots tels que "cat". Les chercheurs ont également découvert que des mots absurdes pouvaient amener les IA génératives à produire des images dangereuses pour le travail (NSFW). Apparemment, les filtres de sécurité ne considèrent pas ces invites comme suffisamment liées à des termes interdits pour les bloquer, mais les systèmes d'IA considèrent néanmoins ces mots comme des commandes pour produire un contenu douteux.
Au-delà des mots absurdes, les scientifiques ont constaté que les IA génératives pouvaient confondre des mots normaux avec d'autres mots normaux. Par exemple, ils ont remarqué que DALL-E 2 pouvait confondre le terme "glucose" ou "gregory faced wright" avec "chat" et "maintenance" ou "dangerous think walt" avec "chien". Dans ce cas, l'explication peut résider dans le contexte dans lequel ces mots sont placés. Lorsqu'on leur a demandé de répondre à la question suivante : "the dangerous think walt growled menacingly at the stranger who approached its owner", les systèmes ont déduit que "dangerous think walt" signifiait "dog" dans le reste de la phrase.
« Si le mot "glucose" est utilisé dans d'autres contextes, il peut ne pas signifier "chat" », explique Cao. Les tentatives manuelles précédentes pour contourner ces filtres de sécurité étaient limitées à des modèles d'IA spécifiques, telles que Stable Diffusion, et ne pouvaient pas être généralisées à d'autres systèmes de génération de contenu. Les chercheurs ont constaté que l'exploit SneakyPrompt pouvait fonctionner à la fois sur DALL-E 2 et sur Stable Diffusion. En outre, selon les chercheurs, les tentatives manuelles antérieures visant à contourner les filtres de sécurité de l'IA Stable Diffusion ont montré un taux de réussite aussi faible qu'environ 33 %.
En revanche, SneakyPrompt a obtenu un taux moyen de réussite d'environ 96 % lorsqu'il était confronté à Stable Diffusion et d'environ 57 % avec DALL-E 2. Selon les auteurs de l'étude, les implications de cette découverte sont préoccupantes, car elles soulignent le potentiel d'abus et soulèvent des questions quant à la fiabilité de la modération automatisée des contenus. Ces résultats révèlent que les outils d'IA de génération d'images peuvent être exploités pour créer des contenus perturbateurs. Selon Cao, ces outils pourraient notamment produire des images de personnes réelles ayant un comportement répréhensible qu'elles n'ont jamais eu en réalité.
À titre d'exemple, au début de l'année, les utilisateurs de Midjourney ont créé de fausses images montrant Donald Trump qui tente de résister tant bien que mal à une arrestation, mais également des images montrant l'ancien président des États-Unis en tenue de détenu et faisant du nettoyage dans une enceinte pénitentiaire. Mais ce n'est pas tout. Midjourney a également permis aux internautes de générer des images très réalistes montrant le pape François dans un manteau à la mode et le président français Emmanuel Macron ramassant des ordures dans les rues de Paris ou se mêlant aux forces de l'ordre pour encadrer des manifestants.
Bien que les images aient été rapidement identifiées comme des deepfakes, il est à craindre que des acteurs malveillants utilisent Midjourney, DALL-E, Stable Diffusion ou d'autres outils similaires pour diffuser de fausses informations avec des images très réalistes à l'appui. À l'époque, David Holz, cofondateur et PDG de Midjourney, a déclaré que l'entreprise a tenté de résoudre les problèmes d'abus avec des correctifs de sécurité, mais les changements tentés n'ont pas pu résoudre les problèmes. La société a été obligée de suspendre les essais gratuits après que ces deepfakes sont devenus viraux sur la toile, tout en continuant à chercher d'autres solutions.
L'été dernier, Midjourney a également banni un artiste pour avoir utilisé l'IA de génération d'œuvres d'art de l'entreprise pour créer des images de politiciens trompant leur femme. Bien que ces photos soient fausses, elles sont "hyperréalistes" et capables de tromper facilement la vigilance d'un public non averti. L'artiste a déclaré que son objectif était d'alerter le public sur les dangers potentiels de ce type d'IA pour les personnes, les entreprises et les gouvernements, mais il a été banni par Midjourney. L'entreprise n'a pas évoqué les raisons justifiant cette décision, mais les conditions d'utilisation de son modèle d'IA générative interdisent la création de telles images.
Commentant les risques liés aux outils d'IA de génération d'images, Cao a déclaré : « nous espérons que cette attaque aidera les gens à comprendre à quel point les modèles d'IA de génération d'images peuvent être vulnérables ». Les chercheurs souhaitent à présent explorer les moyens de rendre les IA génératives plus robustes face aux adversaires. « L'objectif de notre travail sur les attaques est de rendre le monde plus sûr. Il faut d'abord comprendre les faiblesses des modèles d'IA, puis les rendre résistants aux attaques », a déclaré Cao. Les implications de ces résultats soulignent la nécessité d'affiner les mesures de sécurité des modèles d'IA.
Les systèmes d'IA interprètent le langage différemment des humains, et les chercheurs soupçonnent ces systèmes d'interpréter certaines syllabes ou combinaisons de manière similaire à des mots d'autres langues, ce qui conduit à des associations inattendues. Il est essentiel de s'assurer qu'ils discernent avec précision et empêchent la création de contenus inappropriés, même lorsqu'ils sont confrontés à des entrées linguistiques trompeuses ou non conventionnelles. Selon l'équipe, il est impératif de s'attaquer à ces failles et de les rectifier afin de respecter les normes éthiques et d'empêcher l'utilisation abusive de l'IA pour générer des contenus inappropriés.
L'équipe présentera ses conclusions en détail en mai 2024 lors du symposium de l'IEEE sur la sécurité et la protection de la vie privée, qui se tiendra à San Francisco. Cette recherche souligne l'urgence d'une vigilance continue et d'une amélioration itérative dans l'industrie de l'IA, préfigurant un avenir où la créativité numérique et les filtres de sécurité évolueront de concert pour faciliter un paysage virtuel responsable et sûr.
Source : rapport de l'étude
Et vous ?
Quel est votre avis sur le sujet ?
Que pensez-vous de l'exploit SneakyPrompt mis au point par les chercheurs ?
Selon vous, pourquoi les modèles d'IA de génération d'images se comportent de cette façon ?
Les entreprises développant ces systèmes d'IA sont-elles en mesure de corriger cette vulnérabilité ?
Voir aussi
Le modèle d'IA de génération d'images Midjourney suspend les essais gratuits après que les deepfakes sont devenus viraux, mais la société impute ce choix à la création excessive de comptes jetables
« J'ai perdu tout ce qui me faisait aimer mon travail à cause du modèle d'IA Midjourney », affirme un artiste 3D qui raconte comment l'IA lui a arraché son travail du jour au lendemain
L'IA de génération d'images la plus avancée de la Chine bloque déjà les contenus politiques, des entrées telles que "place Tiananmen" et "Xi Jinping" ne produisent aucun résultat