Nightshade, l'outil gratuit qui « empoisonne » les modèles d'IA, est désormais disponible pour les artistes,

Il pourrait être utilisé de manière abusive, restreignant l'évolution des modèles

Le 22 janvier 2024 à 15:05, par Bruno

125PARTAGES

Les chercheurs de l'université de Chicago ont récemment présenté Nightshade 1.0, un outil qui se veut une réponse aux fabricants peu scrupuleux de modèles d'apprentissage automatique. Nightshade a pour objectif d'introduire des perturbations dans les fichiers d'images afin de générer des erreurs dans les modèles utilisant des données non autorisées, agissant ainsi comme une mesure de protection des droits d'auteur pour les créateurs.

Bien que les chercheurs préconisent l'utilisation conjointe de Nightshade avec Glaze pour renforcer la défense de la propriété intellectuelle des artistes, il est important de souligner que Nightshade présente des limites, notamment des différences subtiles avec les images originales. Malgré ses objectifs louables, il est essentiel d'évaluer attentivement l'efficacité et les implications éthiques de Nightshade dans le paysage complexe de l'intelligence artificielle et de la protection des droits d'auteur.

À mesure que les systèmes d'intelligence artificielle (IA) continuent leur progression, le National Institute of Standards and Technology (NIST) vient de rendre public un rapport signalant une menace croissante : l'utilisation par des acteurs malveillants de l'apprentissage automatique pour contourner ces systèmes. Selon les conclusions de ce rapport, cette menace devrait vraisemblablement prendre de l'ampleur dans un avenir proche.

Le rapport met en lumière la possibilité pour les attaquants de délibérément perturber voire « empoisonner » les systèmes d'IA afin de les rendre dysfonctionnels. Il souligne également l'absence d'une défense infaillible que les développeurs peuvent mettre en place. Les informaticiens du National Institute of Standards and Technology (NIST) et leurs collaborateurs ont identifié ces vulnérabilités dans les domaines de l'IA et de l'apprentissage automatique dans une nouvelle publication.

Intitulé Adversarial Machine Learning : A Taxonomy and Terminology of Attacks and Mitigations, ce travail s'inscrit dans le cadre des efforts plus larges du NIST visant à soutenir le développement d'une IA digne de confiance. Il peut également contribuer à appliquer le cadre de gestion des risques de l'IA du NIST. Fruit d'une collaboration entre le gouvernement, le monde universitaire et l'industrie, ce document vise à familiariser les développeurs et utilisateurs de l'IA avec les types d'attaques possibles et les méthodes pour les atténuer, tout en soulignant qu'aucune solution miracle n'existe.

Apostol Vassilev, informaticien au NIST et l'un des auteurs de la publication, a déclaré : « Nous offrons une vue d'ensemble des techniques et méthodologies d'attaque qui englobent tous les types de systèmes d'IA. Nous décrivons également les stratégies d'atténuation actuelles mentionnées dans la littérature, mais ces défenses disponibles manquent actuellement de garanties solides quant à leur capacité à atténuer pleinement les risques. Nous encourageons la communauté à proposer de meilleures défenses. »

La transformation des images pour empêcher l'entraînement non autorisé des modèles d'IA

Depuis leur arrivée, les modèles d'IA générative et leurs formateurs ont démontré leur capacité à télécharger n'importe quel contenu en ligne pour l'entraînement des modèles. Pour les propriétaires et les créateurs de contenu, peu d'outils peuvent empêcher que leur contenu soit introduit dans un modèle d'IA générative contre leur volonté. Afin de remédier à cette asymétrie de pouvoir, les chercheurs de l'université de Chicago ont conçu et mis en œuvre Nightshade, un outil qui transforme n'importe quelle image en un échantillon de données inadapté à la formation de modèles.

Plus précisément, Nightshade transforme les images en échantillons « empoisonnés », de sorte que les modèles qui s'entraînent sur ces images sans consentement verront leurs modèles apprendre des comportements imprévisibles qui s'écartent des normes attendues, par exemple une invite qui demande l'image d'une vache volant dans l'espace pourrait obtenir à la place l'image d'un sac à main flottant dans l'espace.

Utilisé de manière responsable, Nightshade pourrait contribuer à dissuader les formateurs de modèles qui ne respectent pas les droits d'auteur, les listes d'exclusion et les directives do-not-scrape/robots.txt. Il ne compte pas sur la gentillesse des entraîneurs de modèles, mais associe un petit prix incrémentiel à chaque donnée récupérée et entraînée sans autorisation. L'objectif de Nightshade n'est pas de casser les modèles, mais d'augmenter le coût de l'entraînement sur des données sans licence, de sorte que l'obtention de licences d'images auprès de leurs créateurs devienne une alternative viable.

Nightshade fonctionne de la même manière que Glaze, mais au lieu d'être une défense contre le mimétisme de style, il est conçu comme un outil offensif pour déformer les représentations des caractéristiques à l'intérieur des modèles d'image de l'IA générative. Comme Glaze, Nightshade est calculé comme une optimisation multi-objectifs qui minimise les changements visibles de l'image originale.

Alors que les yeux humains voient une image ombrée qui est largement inchangée par rapport à l'original, le modèle d'IA voit une composition radicalement différente dans l'image. Par exemple, l'œil humain peut voir une image ombrée d'une vache dans un champ vert qui n'a pratiquement pas changé, alors que le modèle d'IA peut voir un grand sac à main en cuir posé dans l'herbe. Entraîné sur un nombre suffisant d'images ombrées comprenant une vache, un modèle sera de plus en plus convaincu que les vaches ont de belles poignées en cuir marron et des poches latérales lisses avec une fermeture à glissière, et peut-être un joli logo de marque.

Les changements apportés par Nightshade sont plus visibles sur les œuvres aux couleurs plates et aux arrière-plans lisses. Nightshade ayant pour but de perturber les modèles, des niveaux d'intensité/poison plus faibles n'ont pas de conséquences négatives pour le propriétaire de l'image. Par ailleurs, il est peu probable que Nightshade reste à l'épreuve du temps sur de longues périodes. Mais en tant qu'attaque, Nightshade peut facilement évoluer pour continuer à suivre le rythme de toute contre-mesure/défense potentielle.

Nightshade a été conçu par les doctorants Shawn Shan, Wenxin Ding et Josephine Passananti de l'université de Chicago, en collaboration avec les professeurs Heather Zheng et Ben Zhao, dont certains ont également été impliqués dans le projet Glaze. Dans leur document de recherche publié en octobre 2023, Nightshade est présenté comme une attaque par empoisonnement spécifique à un message. L'empoisonnement des images implique la sélection d'une étiquette (comme "chat"

qui décrit réellement ce qui est représenté, prétendument pour brouiller les limites conceptuelles lors de l'entraînement du modèle. Cependant, cette approche soulève des questions quant à sa faisabilité et son impact réel, en particulier compte tenu de la complexité des modèles d'apprentissage automatique.

Nightshade pourrait être utilisé de manière abusive, entravant, par exemple, la recherche légitime ou restreignant l'évolution des modèles

L'idée selon laquelle Nightshade pourrait rendre les modèles texte-image moins utiles en introduisant des réponses imprévisibles est matière à débat, car elle semble simplifier la complexité des processus d'entraînement des modèles d'apprentissage automatique. Cette notion semble adopter une perspective simpliste des processus d'entraînement des modèles, négligeant la diversité des...

La fin de cet article est réservée aux abonnés. Soutenez le Club Developpez.com en prenant un abonnement pour que nous puissions continuer à vous proposer des publications.

Une erreur dans cette actualité ? Signalez-nous-la !

Votre nom : Votre e-mail :

Décrivez l'erreur que vous souhaitez porter à notre connaissance :

Identifiez-vous

Créer un compte

Nightshade, l'outil gratuit qui « empoisonne » les modèles d'IA, est désormais disponible pour les artistes,

Il pourrait être utilisé de manière abusive, restreignant l'évolution des modèles

Identifiant
Mot de passe

Mot de passe oublié ?

Identifiez-vous

Créer un compte

Nightshade, l'outil gratuit qui « empoisonne » les modèles d'IA, est désormais disponible pour les artistes, Il pourrait être utilisé de manière abusive, restreignant l'évolution des modèles

Nightshade, l'outil gratuit qui « empoisonne » les modèles d'IA, est désormais disponible pour les artistes,

Il pourrait être utilisé de manière abusive, restreignant l'évolution des modèles