ChatGPT, comme la plupart des autres modèles de langage de grande taille, a été entraîné sur d’énormes quantités de données et de textes extraits d’Internet, y compris de nombreux livres qui restent protégés par le droit d’auteur. L’entreprise a fait l’objet d’un examen accru pour avoir utilisé ces œuvres sans payer pour les informations par le biais de contrats de licence ou d’autres autorisations. Cela a entraîné des poursuites judiciaires de la part des auteurs.
Plusieurs auteurs poursuivent OpenAI
La comédienne et auteure Sarah Silverman, ainsi que les auteurs Christopher Golden et Richard Kadrey, poursuivent OpenAI et Meta chacun devant un tribunal de district américain pour double plainte pour violation du droit d'auteur.
Selon les plaintes déposées devant le tribunal fédéral de San Francisco, Meta et OpenAI ont obtenu les œuvres des plaignants à partir de sites illégaux de « bibliothèques fantômes », qui proposent des livres numérisés sans respecter les droits d’auteur. Les plaignants affirment que leurs œuvres ont été utilisées comme matériel d’entraînement pour les modèles d’IA, sans qu’ils en aient été informés ni rémunérés.
Les plaignants citent comme preuve le fait que les modèles d’IA sont capables de résumer leurs livres lorsqu’ils sont sollicités. Par exemple, ChatGPT peut fournir un résumé du livre The Bedwetter de Sarah Silverman, publié en 2010, qui raconte son enfance marquée par l’énurésie. De même, LLaMA peut résumer les livres Ararat de Christopher Golden et Sandman Slim de Richard Kadrey, qui sont des romans fantastiques.
Quant à la plainte séparée contre Meta, elle allègue que les livres des auteurs étaient accessibles dans les ensembles de données que Meta a utilisés pour former ses modèles LLaMA, un quatuor de modèles d'IA open source que la société a introduit en février.
La plainte explique par étapes pourquoi les plaignants pensent que les ensembles de données ont des origines illicites – dans un document Meta détaillant LLaMA, la société indique les sources de ses ensembles de données de formation, dont l'un s'appelle ThePile, qui a été assemblé par une société appelée EleutherAI. ThePile, souligne la plainte, a été décrit dans un article d'EleutherAI comme étant constitué à partir « d'une copie du contenu du traceur privé Bibliotik ». Bibliotik et les autres « bibliothèques fantômes » répertoriées, selon la plainte, sont « incontestablement illégales ».
Dans les deux plaintes, les auteurs disent qu'ils « n'ont pas consenti à l'utilisation de leurs livres protégés par le droit d'auteur comme matériel de formation » pour les modèles d'IA des entreprises. Leurs plaintes contiennent chacune six chefs d'accusation de divers types de violations du droit d'auteur, de négligence, d'enrichissement sans cause et de concurrence déloyale. Les auteurs demandent des dommages-intérêts légaux, la restitution des bénéfices, etc.
D'autres poursuites avaient déjà été lancées
Deux auteurs américains, Paul Tremblay et Mona Awad, affirment qu'OpenAI a utilisé leurs œuvres sans autorisation pour entraîner son système d’intelligence artificielle générative ChatGPT.
ChatGPT et d’autres systèmes d’IA générative créent du contenu en utilisant de grandes quantités de données collectées sur internet. La plainte des auteurs affirme que les livres sont un « ingrédient clef », car ils offrent les « meilleurs exemples d’écriture longue de haute qualité ». La plainte estime qu’OpenAI a incorporé dans ses données d’entraînement plus de 300 000 livres, dont certains provenant de « bibliothèques fantômes » illégales qui proposent des livres protégés par le droit d’auteur sans autorisation.
Awad est connue pour ses romans comme « 13 Ways of Looking at a Fat Girl » et « Bunny ». Tremblay est l’auteur de romans comme « The Cabin at the End of the World », qui a été adapté dans le film de Night Shyamalan « Knock at the Cabin » sorti en février. Tremblay et Awad affirment que ChatGPT peut générer des résumés « très précis » de leurs livres, ce qui indique qu’ils figurent dans sa base de données.
La plainte demande une somme indéterminée de dommages-intérêts au nom d’une classe nationale de titulaires de droits d’auteur dont les œuvres auraient été utilisées abusivement par OpenAI.
Des poursuites comme celle-ci ne sont pas seulement un casse-tête pour OpenAI et d'autres sociétés d'IA; elles défient les limites mêmes du droit d'auteur. Il n'est pas exclu de voir des poursuites centrées sur le droit d'auteur dans les modèles de formation d'IA se multiplier dans les années à venir.
La réponse d'OpenAI ? Cacher les sources
La réponse d’OpenAI, et celle de Google, Meta et Microsoft, a été principalement de cesser de divulguer les données sur lesquelles leurs modèles d’IA sont entraînés. Maintenant, OpenAI est allé plus loin, suggère une étude. ChatGPT tente désormais d’éviter de répondre aux sollicitations des utilisateurs avec des formulations exactes provenant d’œuvres protégées par le droit d’auteur, selon un article technique publié par un groupe de chercheurs en IA travaillant pour le pôle recherche de ByteDance.
L’étude, qui s’est concentrée sur la façon de rendre les LLM plus « fiables » dans leurs sorties grâce à diverses techniques « d’alignement » afin d'améliorer la précision, a estimé que les outils d’IA montrant qu’ils ont été entraînés à l’aide de matériel protégé par le droit d’auteur « ont soulevé des préoccupations » pour les entreprises d’IA.
Dans un effort pour éviter de montrer qu’il a été entraîné sur ce type de matériel, ChatGPT « perturbe les sorties lorsque l’on essaie d’extraire en continu la phrase suivante… ce qui ne se produisait pas dans la version précédente de ChatGPT », ont écrit les chercheurs. « Nous supposons que les développeurs de ChatGPT ont mis en place un mécanisme pour détecter si les sollicitations visent à extraire du contenu protégé par le droit d’auteur ou à vérifier la similarité entre les sorties générées et les contenus protégés par le droit d’auteur ».
Malgré ces efforts, ChatGPT a toujours montré du matériel protégé par le droit d’auteur, selon l’étude. Comme le font de nombreux autres modèles d’IA, étant donné qu’ils ont été entraînés sur d’énormes pans de matériel protégé par le droit d’auteur. Les chercheurs ont testé toutes les versions de ChatGPT, OPT-1.3B de Meta, FLAN-T5 de Google, ChatGLM construit par l’université Tsinghua Chine, et DialoGPT construit par Microsoft : tous ont répondu à plusieurs sollicitations basées sur la série de livres Harry Potter de J.K. Rowling avec des phrases et des œuvres correspondant exactement ou presque exactement aux livres. Certaines réponses ne différaient que d’un ou deux mots, selon l’étude.
« Tous les LLM émettent du texte qui ressemble plus à du contenu protégé par le droit d’auteur qu’à du texte généré aléatoirement », a déclaré l’étude. Elle a également constaté qu’aucune quantité « d’alignement » ou d’ajustement des sorties n’évite de montrer des œuvres protégées par le droit d’auteur « parce que la fuite du droit d’auteur est plus liée au fait que les données d’entraînement comprennent du texte protégé par le droit d’auteur plutôt qu’à l’alignement lui-même ».
Le document qualifie de « fuite » le fait que les modèles d’IA répondent avec du matériel protégé par le droit d’auteur. Les chercheurs ont suggéré que les utilisateurs qui incitent ces modèles à montrer des œuvres protégées par le droit d'auteur « abusent » de la technologie.
L'article a également souligné le travail apparent de ChatGPT pour cacher le travail protégé par le droit d'auteur sur lequel il a été formé comme un exemple positif de la façon dont d'autres outils d'IA « peuvent protéger le contenu protégé par le droit d'auteur dans les LLM en détectant des invites conçues de manière malveillante ».
Les solutions envisageables
L’étude soulève des questions sur la façon dont les entreprises d’IA peuvent respecter les droits d’auteur des auteurs tout en développant des modèles de langage de plus en plus puissants et performants. Les chercheurs suggèrent que les développeurs de LLM devraient « éviter d’utiliser du contenu protégé par le droit d’auteur comme données d’entraînement » ou « obtenir l’autorisation des détenteurs des droits d’auteur » avant de le faire. Ils proposent également d’utiliser des techniques de « filtrage » ou de « masquage » pour empêcher les LLM de générer du contenu protégé par le droit d’auteur.
Cependant, ces solutions ne sont pas sans problèmes. D’une part, il est difficile de filtrer ou de masquer tout le contenu protégé par le droit d’auteur dans les données d’entraînement, car il n’existe pas de base de données complète et à jour des œuvres protégées par le droit d’auteur. D’autre part, éviter d’utiliser du contenu protégé par le droit d’auteur comme données d’entraînement pourrait réduire la qualité et la diversité des LLM, car ils auraient accès à moins de sources de texte.
Une autre possibilité serait de créer un cadre juridique qui permette aux entreprises d’IA d’utiliser du contenu protégé par le droit d’auteur comme données d’entraînement sans violer les droits des auteurs, à condition qu’elles ne divulguent pas ou ne reproduisent pas ce contenu dans leurs sorties. Cela pourrait nécessiter une modification des lois sur le droit d’auteur ou la création d’une exception spécifique pour l’IA. Cela pourrait également impliquer la mise en place d’un système de licence ou de rémunération pour les auteurs dont les œuvres sont utilisées comme données d’entraînement.
Quelle que soit la solution adoptée, il est clair que les entreprises d’IA doivent faire face à un dilemme entre le respect des droits d’auteur et le développement de modèles de langage innovants. Il est également clair que les auteurs doivent être conscients du risque que leurs œuvres soient utilisées sans leur consentement ou leur rétribution par des modèles d’IA. Il est donc nécessaire de trouver un équilibre entre les intérêts des uns et des autres, tout en préservant la créativité et l’éthique dans le domaine de l’IA.
Source : recherche
Et vous ?
Quelle est votre opinion sur l’utilisation du contenu protégé par le droit d’auteur comme données d’entraînement pour les modèles d’IA ?
Pensez-vous que les entreprises d’IA devraient payer les auteurs dont les œuvres sont utilisées comme données d’entraînement ?
Quels sont les risques et les avantages de créer une exception au droit d’auteur pour l’IA ?
Comment pensez-vous que les modèles d’IA pourraient respecter la créativité et l’éthique des auteurs ?
Avez-vous déjà utilisé ou interagi avec un modèle d’IA qui a généré du contenu protégé par le droit d’auteur ? Si oui, comment avez-vous réagi ?