Meta accusée d'avoir téléchargé plus de 81,7 To de livres piratés pour entraîner son IA.

Des courriels montrent qu'elle a tenté de le dissimuler en évitant les serveurs de Facebook lors du téléchargement

Le 7 février 2025 à 21:04, par Stéphane le calme

220PARTAGES

Meta accusée d’avoir téléchargé plus de 81,7 To de livres piratés pour entraîner son IA.
Des courriels montrent que l'entreprise a tenté de le dissimuler en n'utilisant pas les serveurs de Facebook lors du téléchargement de l'ensemble de données

Meta, la maison mère de Facebook, se retrouve une fois de plus sous le feu des projecteurs pour ses pratiques en matière d’intelligence artificielle. Selon des allégations récentes, l’entreprise aurait téléchargé plus de 81,7 téraoctets de livres piratés pour enrichir les modèles d’IA utilisés dans ses projets. Une révélation qui relance le débat sur l’éthique de l’entraînement des intelligences artificielles et sur la protection des droits d’auteur.

Ces accusations émanent de plusieurs auteurs et organisations défendant les droits des écrivains. Selon eux, Meta aurait utilisé des bases de données de livres piratés, notamment celles circulant sur des plateformes comme Library Genesis (LibGen), Z-Library ou encore Bibliotik, qui sont bien connues pour héberger des millions d’ouvrages sous copyright en accès gratuit et illégal. Ces ouvrages auraient servi à enrichir LLaMA (Large Language Model Meta AI), l’un des modèles de langage les plus avancés développés par Meta.

Un accès massif à des œuvres protégées

Des courriels récemment dévoilés fourniraient les « preuves les plus accablantes » contre Meta dans une affaire de droits d'auteur soulevée par des auteurs de livres alléguant que Meta a illégalement entraîné ses modèles d'intelligence artificielle sur des livres piratés.

Le mois dernier, Meta a admis avoir utilisé un vaste ensemble de données controversé connu sous le nom de LibGen, qui comprend des dizaines de millions de livres piratés. Mais les détails sont restés obscurs jusqu'à ce que les courriels non expurgés de Meta ont été rendus publics pour la première fois. Les nouvelles preuves montrent que Meta a utilisé « au moins 81,7 téraoctets de données provenant de plusieurs bibliothèques fantômes par l'intermédiaire du site Anna's Archive, dont au moins 35,7 téraoctets de données provenant de Z-Library et LibGen », indiquent les auteurs dans leur déclaration au tribunal. Et « Meta a aussi précédemment utilisé 80,6 téraoctets de données provenant de LibGen ».

« L'ampleur du système illégal de téléchargement de Meta est stupéfiante », affirment les auteurs, qui insistent sur le fait que « des actes de piratage de données bien moins importants - seulement 0,008 % de la quantité d'œuvres protégées par le droit d'auteur piratées par Meta - ont conduit les juges à renvoyer l'affaire au bureau des procureurs des États-Unis pour enquête criminelle ».

Le seeding élargit la théorie de distribution des auteurs

Les auteurs de livres ont fait pression sur Meta pour obtenir davantage d'informations sur les téléchargements par le biais de torrents en raison du problème apparemment évident de droit d'auteur que pose le seeding par Meta, et donc la distribution apparente, des livres piratés dans le cadre du litige.

Mais Meta s'est opposé à ces tentatives après qu'une ordonnance a rejeté la demande des auteurs d'examiner les données de Meta sur le torrenting et le seeding. Cela n'a pas empêché les auteurs de rassembler des preuves, y compris un document clé qui commence avec au moins un membre du personnel semblant plaisanter avec gêne sur les risques juridiques possibles, puis devenant plus sérieux en faisant part de ses inquiétudes (appendice A en source).

« Le torrenting à partir d'un ordinateur portable professionnel n'est pas une bonne chose », écrit Nikolay Bashlykov, un ingénieur de recherche de Meta, dans un message datant d'avril 2023, en ajoutant un emoji smiley. Dans le même message, il s'est dit « préoccupé par l'utilisation des adresses IP de Meta « pour charger des contenus pirates par le biais de torrents ».

En septembre 2023, Bashlykov avait apparemment laissé tomber les émojis, consultant directement l'équipe juridique et soulignant dans un courriel que « l'utilisation de torrents impliquerait le seeding des fichiers, c'est-à-dire le partage du contenu à l'extérieur, ce qui pourrait être légalement inacceptable ».

Les courriels portant sur le torrenting prouvent que Meta savait que c'était « illégal », affirment les auteurs. Les avertissements de Bashlykov semblent être restés lettre morte, les auteurs affirmant que les preuves montrent que Meta a choisi de dissimuler au mieux ses activités de torrent tout en téléchargeant et en envoyant des téraoctets de données à partir de plusieurs bibliothèques secrètes, et ce pas plus tard qu'en avril 2024.

Le torrenting est une méthode de téléchargement de fichiers depuis un réseau P2P à l'aide de fichiers torrents ou de liens magnets

Meta aurait dissimulé le seeding

Meta aurait tenté de dissimuler le seeding en n'utilisant pas les serveurs de Facebook lors du téléchargement de l'ensemble de données pour « éviter » le « risque » que quelqu'un « remonte jusqu'au seeder/downloader » à partir des serveurs de Facebook, selon un message interne du chercheur de Meta Frank Zhang, tout en décrivant le travail comme étant en « mode furtif ». Meta aurait également modifié les paramètres « de manière à ce que le plus petit nombre possible de téléchargements puisse avoir lieu », a déclaré Michael Clark, un cadre de Meta chargé de la gestion du projet, lors d'une déposition.

Maintenant que de nouvelles informations ont été révélées, les auteurs affirment que le personnel de Meta impliqué dans la décision de torréfier LibGen doit être à nouveau interrogé, car les nouveaux faits « contredisent les témoignages antérieurs ».

Mark Zuckerberg, par exemple, a affirmé ne pas être impliqué dans la décision d'utiliser LibGen pour entraîner des modèles d'IA. Mais des messages non expurgés montrent que la « décision d'utiliser LibGen s'est produite » après « une escalade préalable vers MZ », affirment les auteurs.

Meta a déjà abordé la question du torrent dans une requête en irrecevabilité déposée le mois dernier, déclarant au tribunal que « les plaignants ne plaident pas un seul cas dans lequel une partie quelconque d'un livre a été, en fait, téléchargée par un tiers depuis Meta via un torrent, et encore moins que les livres des plaignants ont été d'une manière ou d'une autre distribués par Meta ».

Bien que Meta puisse être confiant dans sa stratégie juridique en dépit de ce nouveau problème de torrent, l'entreprise de médias sociaux a apparemment compliqué son affaire en permettant aux auteurs d'étendre la théorie de la distribution qui est essentielle pour gagner une plainte pour violation directe du droit d'auteur au-delà de la simple affirmation que les sorties AI de Meta ont illégalement distribué leurs œuvres.

Un problème récurrent dans l’industrie de l’IA

Meta n’est pas la seule entreprise à être pointée du doigt pour de telles pratiques. OpenAI, Google et d’autres acteurs du secteur ont déjà été accusés d’entraîner leurs IA sur des bases de données contenant du contenu protégé sans l’accord des auteurs. Le principal enjeu réside dans le manque de transparence de ces entreprises sur leurs sources de données.

Les grandes entreprises technologiques justifient souvent ces méthodes par la nécessité d’obtenir des ensembles de données massifs pour améliorer les performances de leurs IA. Cependant, cette approche soulève des questions éthiques et légales, notamment en ce qui concerne le droit d’auteur et la rémunération des créateurs.

OpenAI et Meta accusés d'avoir utilisé les œuvres de Sarah Silverman et de deux auteurs sans leur consentement

La comédienne et auteure Sarah Silverman, ainsi que les auteurs Christopher Golden et Richard Kadrey, poursuivent OpenAI et Meta chacun devant un tribunal de district américain pour double plainte pour violation du droit d'auteur.

Selon les plaintes, Meta et OpenAI ont obtenu les œuvres des plaignants à partir de sites illégaux de « bibliothèques fantômes », qui proposent des livres numérisés sans respecter les droits d’auteur. Les plaignants affirment que leurs œuvres ont été utilisées comme matériel d’entraînement pour les modèles d’IA, sans qu’ils n’en aient été informés ni rémunérés.

Les plaignants citent comme preuve le fait que les modèles d’IA sont capables de résumer leurs livres lorsqu’ils sont sollicités. Par exemple, ChatGPT peut fournir un résumé du livre The Bedwetter de Sarah Silverman, publié en 2010, qui raconte son enfance marquée par l’énurésie. De même, LLaMA peut résumer les livres Ararat de Christopher Golden et Sandman Slim de Richard Kadrey, qui sont des romans fantastiques.

Quant à la plainte séparée contre Meta, elles allèguent que les livres des auteurs étaient accessibles dans les ensembles de données que Meta a utilisés pour former ses modèles LLaMA, un quatuor de modèles d'IA open source que la société a introduit en février.

La plainte explique par étapes pourquoi les plaignants pensent que les ensembles de données ont des origines illicites – dans un document Meta détaillant LLaMA, la société indique les sources de ses ensembles de données de formation, dont l'un s'appelle ThePile, qui a été assemblé par une société appelée EleutherAI. ThePile, souligne la plainte, a été décrit dans un article d'EleutherAI comme étant constitué à partir « d'une copie du contenu du traceur privé Bibliotik ». Bibliotik et les autres « bibliothèques fantômes » répertoriées, selon la plainte, sont « incontestablement illégales ».

Dans les deux plaintes, les auteurs disent qu'ils « n'ont pas consenti à l'utilisation de leurs livres protégés par le droit d'auteur comme matériel de formation » pour les modèles d'IA des entreprises. Leurs plaintes contiennent chacune six chefs d'accusation de divers types de violations du droit d'auteur, de négligence, d'enrichissement sans cause et de concurrence déloyale. Les auteurs demandent des dommages-intérêts légaux, la restitution des bénéfices, etc.

Les avocats Joseph Saveri et Matthew Butterick, qui représentent les trois auteurs, écrivent sur leur site Web LLMlitigation qu'ils ont entendu parler « d'écrivains, d'auteurs et d'éditeurs qui s'inquiètent de la capacité étonnante de [ChatGPT] à générer du texte similaire à celui trouvé dans les matériaux textuels protégés par les droits d'auteur, y compris des milliers de livres ».

Deux auteurs américains, Paul Tremblay et Mona Awad, affirment qu'OpenAI a utilisé leurs œuvres sans autorisation pour entraîner son système d’intelligence artificielle générative ChatGPT.

Sources : plainte, appendice A, Frank Zhang

Et vous ?

L’utilisation d’œuvres piratées pour entraîner une IA constitue-t-elle une violation flagrante du droit d’auteur ou une zone grise juridique ? Les lois actuelles sur le droit d’auteur sont-elles adaptées aux enjeux de l’intelligence artificielle ?

Quels effets à long terme cette pratique pourrait-elle avoir sur les auteurs et l’édition traditionnelle ?

En quoi l’utilisation d’ouvrages sous copyright pour entraîner une IA nuit-elle à la créativité et aux droits des écrivains ?

Y a-t-il un risque que l’IA remplace une partie du travail des écrivains, des traducteurs ou des éditeurs ?

Meta et d’autres entreprises du secteur de l’IA devraient-elles être contraintes de révéler les sources de leurs données d’entraînement ?

Pourquoi les entreprises technologiques ont-elles tendance à privilégier les contenus gratuits ou piratés plutôt que de négocier avec les auteurs ?

Vous avez lu gratuitement 9 399 articles depuis plus d'un an.
Soutenez le club developpez.com en souscrivant un abonnement pour que nous puissions continuer à vous proposer des publications.

Une erreur dans cette actualité ? Signalez-nous-la !

Votre nom : Votre e-mail :

Décrivez l'erreur que vous souhaitez porter à notre connaissance :