Alors que les géants de la tech aspirent massivement les œuvres en ligne pour entraîner leurs modèles d'IA sans consentement ni rémunération, une contre-offensive technique s'organise dans les communautés d'artistes et de développeurs. Des outils comme Nightshade ou Glaze permettent de « contaminer » les données d'entraînement pour rendre les modèles défaillants. Acte de sabotage illégal ou forme moderne de désobéissance civile ? La question divise juristes, philosophes et ingénieurs.L'équation est simple dans son injustice : des entreprises valant des centaines de milliards de dollars entraînent leurs modèles génératifs sur des milliards d'images, de textes et de lignes de code récupérés sur le web, souvent sans demander la permission des auteurs, sans les rémunérer et en contournant allègrement les directives robots.txt censées signaler les contenus non soumis à la collecte automatisée. Face à cette situation, et dans l'attente d'un cadre juridique qui tarde à se matérialiser, une frange croissante de créateurs a décidé de ne plus attendre et de riposter par les mêmes moyens : les données elles-mêmes.
Des chercheurs ont développé plusieurs outils d'empoisonnement des données qui exploitent les vulnérabilités des modèles d'IA. Glaze et Nightshade permettent aux artistes de produire des images visuellement altérées qui ne peuvent pas être utilisées comme données d'entraînement. L'outil CoProtector, lui, protège les dépôts de code open source comme GitHub contre leur exploitation. Quant à Silverer, développé par l'Université Monash et la Police fédérale australienne, il permet aux utilisateurs de réseaux sociaux de modifier leurs images personnelles pour éviter qu'elles ne servent à créer des hypertrucages (deepfakes).
Glaze et Nightshade sont les deux outils les plus emblématiques de cette résistance numérique. Tous deux ont été développés par une équipe de l'Université de Chicago, conduite par le professeur Ben Zhao, à partir de 2022, après que des artistes ont contacté le laboratoire pour chercher des solutions techniques face au pillage de leur production créative.
Glaze défend, Nightshade attaque
Ces deux programmes modifient les pixels d'une image de manière subtile et systématique, d'une façon imperceptible pour l'œil humain mais déconcertante pour un modèle d'IA. Comme des illusions d'optique qui trompent la vision humaine, de minuscules retouches visuelles peuvent entièrement changer la manière dont l'IA perçoit une image.
Glaze est un outil défensif que les artistes individuels peuvent utiliser pour se protéger contre les attaques par imitation de style, tandis que Nightshade est un outil offensif que les artistes peuvent utiliser collectivement pour perturber les modèles qui aspirent leurs images sans consentement. Nightshade transforme les images en échantillons « empoisonnés », de sorte que les modèles entraînés sur ces données sans autorisation apprennent des comportements imprévisibles s'écartant des normes attendues; par exemple, une requête demandant une vache volant dans l'espace pourrait générer un sac à main flottant dans le cosmos.
Concrètement, Glaze fait croire au modèle qu'un dessin photoréaliste est de l'art abstrait moderne, neutralisant ainsi la capacité du modèle à mémoriser et reproduire un style donné. Nightshade va plus loin : il corrompt activement le processus d'apprentissage, en associant le style d'un artiste à des concepts sans aucun rapport. Les données empoisonnées sont très difficiles à retirer, car elles obligent les entreprises technologiques à identifier et supprimer laborieusement chaque échantillon corrompu.
L'adoption a été massive : Glaze et Nightshade ont été téléchargés près de neuf millions de fois au total. Nightshade est également passé en open source, ce qui a permis à d'autres équipes de s'en emparer pour en développer leurs propres variantes.
Une pratique ancienne, un contexte nouveau
Le recadrage philosophique de ces pratiques est peut-être ce qui rend le débat le plus saisissant. Certains estiment que l'empoisonnement des données n'est pas simplement un acte immoral de cybercriminalité. Si les entreprises d'IA opèrent avec l'aval des États d'une manière qui porte atteinte aux droits des citoyens en matière de vie privée, de droits d'auteur, de sécurité au travail et d'éducation de qualité, cette pratique pourrait constituer une forme éthique de désobéissance civile.
L'analogie avec les luttes sociales historiques est directe. Rosa Parks refusant de céder sa place dans un bus, des travailleurs hôteliers mettant du sel dans les sucriers, des ouvriers agricoles sabotant des machines : l'empoisonnement des données peut être vu comme une version moderne de ces actions historiques. Le philosophe John Rawls lui-même, cité dans l'analyse, reconnaissait que la désobéissance civile peut être justifiée lorsque des pratiques légalement sanctionnées produisent de graves injustices.
Il ne faut d'ailleurs pas de compétences techniques avancées pour participer à cette forme de résistance diffuse. Créer des sites web avec des informations fictives, publier des plaisanteries sur...
La fin de cet article est réservée aux abonnés. Soutenez le Club Developpez.com en prenant un abonnement pour que nous puissions continuer à vous proposer des publications.