OpenAI et Meta accusés d'avoir utilisé les œuvres de Sarah Silverman et de deux auteurs sans leur consentement

Comme données d'entraînements de leurs IA. Les plaintes de ce type se multiplient

Le 10 juillet 2023 à 18:08, par Stéphane le calme

46PARTAGES

La comédienne et auteure américaine Sarah Silverman a déposé une plainte contre les géants de la technologie Meta et OpenAI, les accusant d’avoir utilisé son œuvre sans son autorisation pour entraîner leurs modèles d’intelligence artificielle (IA) à générer du texte. Elle est rejointe par deux autres auteurs, Christopher Golden et Richard Kadrey, qui affirment que leurs livres ont également été exploités par les deux entreprises sans leur consentement.

Meta et OpenAI sont des acteurs majeurs du domaine de l’IA, notamment avec leurs modèles de langage de grande taille, comme LLaMA pour Meta et ChatGPT pour OpenAI. Ces modèles sont capables de produire des réponses convaincantes à des requêtes textuelles des utilisateurs, en se basant sur d’énormes quantités de données provenant d’Internet. Ces données incluent des livres, des articles, des blogs, des tweets et d’autres contenus textuels.

La comédienne et auteure Sarah Silverman, ainsi que les auteurs Christopher Golden et Richard Kadrey, poursuivent OpenAI et Meta chacun devant un tribunal de district américain pour double plainte pour violation du droit d'auteur.

Selon les plaintes déposées vendredi devant le tribunal fédéral de San Francisco, Meta et OpenAI ont obtenu les œuvres des plaignants à partir de sites illégaux de « bibliothèques fantômes », qui proposent des livres numérisés sans respecter les droits d’auteur. Les plaignants affirment que leurs œuvres ont été utilisées comme matériel d’entraînement pour les modèles d’IA, sans qu’ils n’en aient été informés ni rémunérés.

Les plaignants citent comme preuve le fait que les modèles d’IA sont capables de résumer leurs livres lorsqu’ils sont sollicités. Par exemple, ChatGPT peut fournir un résumé du livre The Bedwetter de Sarah Silverman, publié en 2010, qui raconte son enfance marquée par l’énurésie. De même, LLaMA peut résumer les livres Ararat de Christopher Golden et Sandman Slim de Richard Kadrey, qui sont des romans fantastiques.

Quant à la plainte séparée contre Meta, il allègue que les livres des auteurs étaient accessibles dans les ensembles de données que Meta a utilisés pour former ses modèles LLaMA, un quatuor de modèles d'IA open source que la société a introduit en février.

La plainte explique par étapes pourquoi les plaignants pensent que les ensembles de données ont des origines illicites – dans un document Meta détaillant LLaMA, la société indique les sources de ses ensembles de données de formation, dont l'un s'appelle ThePile, qui a été assemblé par une société appelée EleutherAI. ThePile, souligne la plainte, a été décrit dans un article d'EleutherAI comme étant constitué à partir « d'une copie du contenu du traceur privé Bibliotik ». Bibliotik et les autres «*bibliothèques fantômes*» répertoriées, selon la plainte, sont «*incontestablement illégales*».

Dans les deux plaintes, les auteurs disent qu'ils « n'ont pas consenti à l'utilisation de leurs livres protégés par le droit d'auteur comme matériel de formation » pour les modèles d'IA des entreprises. Leurs plaintes contiennent chacune six chefs d'accusation de divers types de violations du droit d'auteur, de négligence, d'enrichissement sans cause et de concurrence déloyale. Les auteurs demandent des dommages-intérêts légaux, la restitution des bénéfices, etc.

Les avocats Joseph Saveri et Matthew Butterick, qui représentent les trois auteurs, écrivent sur leur site Web LLMlitigation qu'ils ont entendu parler « d'écrivains, d'auteurs et d'éditeurs qui s'inquiètent de la capacité étonnante de [ChatGPT] à générer du texte similaire à celui trouvé dans les matériaux textuels protégés par les droits d'auteur, y compris des milliers de livres ».

Saveri a également engagé des poursuites contre des sociétés d'IA au nom de développeurs et d'artistes. Getty Images a également déposé une plainte contre une entreprise IA, alléguant que Stability AI, qui a créé l'outil de génération d'images IA Stable Diffusion, a formé son modèle sur « des millions d'images protégées par le droit d'auteur ». Saveri et Butterick représentent également les auteurs Mona Awad et Paul Tremblay dans une affaire similaire concernant le chatbot de l'entreprise.

D'autres auteurs avaient déjà porté plainte quelques jours plut tôt contre OpenAI

Deux auteurs américains, Paul Tremblay et Mona Awad, affirment qu'OpenAI a utilisé leurs œuvres sans autorisation pour entraîner son système d’intelligence artificielle générative ChatGPT.

ChatGPT et d’autres systèmes d’IA générative créent du contenu en utilisant de grandes quantités de données collectées sur internet. La plainte des auteurs affirme que les livres sont un « ingrédient clé » car ils offrent les « meilleurs exemples d’écriture longue de haute qualité ». La plainte estime qu’OpenAI a incorporé dans ses données d’entraînement plus de 300 000 livres, dont certains provenant de « bibliothèques fantômes » illégales qui proposent des livres protégés par le droit d’auteur sans autorisation.

Awad est connue pour ses romans comme « 13 Ways of Looking at a Fat Girl » et « Bunny ». Tremblay est l’auteur de romans comme « The Cabin at the End of the World », qui a été adapté dans le film de Night Shyamalan « Knock at the Cabin » sorti en février. Tremblay et Awad affirment que ChatGPT peut générer des résumés « très précis » de leurs livres, ce qui indique qu’ils figurent dans sa base de données.

La plainte demande une somme indéterminée de dommages-intérêts au nom d’une classe nationale de titulaires de droits d’auteur dont les œuvres auraient été utilisées abusivement par OpenAI.

Des poursuites comme celle-ci ne sont pas seulement un casse-tête pour OpenAI et d'autres sociétés d'IA; elles défient les limites mêmes du droit d'auteur. Il n'est pas exclu de voir des poursuites centrées sur le droit d'auteur dans les modèles de formation d'IA se multiplier dans les années à venir.

D'autres plaintes relatives au droit d'auteur évoquent du code source

Fin juin 2022, Copilot était proposé dans le cadre d'une Preview technique sur invitation uniquement, promettant de faire gagner du temps en répondant au code des utilisateurs par ses propres suggestions intelligentes. Ces suggestions sont basées sur des milliards de lignes de code public dont les utilisateurs ont publiquement contribué à GitHub, en utilisant un système d'IA appelé Codex de la société de recherche OpenAI.

GitHub décrit Copilot comme l'équivalent IA de la « programmation en paire », dans laquelle deux développeurs travaillent ensemble sur un seul ordinateur. L'idée est qu'un développeur peut apporter de nouvelles idées ou repérer des problèmes que l'autre développeur aurait pu manquer, même si cela nécessite plus d'heures de travail.

Dans la pratique, cependant, Copilot est plutôt un outil utilitaire de gain de temps, qui intègre les ressources que les développeurs devraient autrement chercher ailleurs. Lorsque les utilisateurs saisissent des données dans Copilot, l'outil leur suggère des extraits de code à ajouter en cliquant sur un bouton. Ainsi, ils n'ont pas à passer du temps à chercher dans la documentation de l'API ou à rechercher des exemples de code sur des sites spécialisés.

Peu après le lancement de la Preview de Copilot en 2021, certains développeurs ont commencé à s'alarmer de l'utilisation d'un code public pour entraîner l'IA de l'outil. L'une des préoccupations est que si Copilot reproduit des parties suffisamment importantes du code existant, il puisse violer les droits d'auteur ou blanchir le code open source dans des utilisations commerciales sans licence appropriée. L'outil peut également reproduire des informations personnelles que les développeurs ont publiées, et dans un cas, il a reproduit le code largement cité du jeu PC Quake III Arena de 1999, y compris le commentaire du développeur John Carmack.

L’utilisateur Hogan a aussi ajouté dans son fil de discussion : « Ce qui serait vraiment drôle, c'est que les gens qui maintiennent des dépôts populaires commençaient...

La fin de cet article est réservée aux abonnés. Soutenez le Club Developpez.com en prenant un abonnement pour que nous puissions continuer à vous proposer des publications.

Une erreur dans cette actualité ? Signalez-nous-la !

Votre nom : Votre e-mail :

Décrivez l'erreur que vous souhaitez porter à notre connaissance :