Meta accusée d'avoir téléchargé plus de 81,7 To de livres piratés pour entraîner son IA.

Des courriels montrent qu'elle a tenté de le dissimuler en évitant les serveurs de Facebook lors du téléchargement

Le 7 février 2025 à 21:04, par Stéphane le calme

162PARTAGES

Meta, la maison mère de Facebook, se retrouve une fois de plus sous le feu des projecteurs pour ses pratiques en matière d’intelligence artificielle. Selon des allégations récentes, l’entreprise aurait téléchargé plus de 81,7 téraoctets de livres piratés pour enrichir les modèles d’IA utilisés dans ses projets. Une révélation qui relance le débat sur l’éthique de l’entraînement des intelligences artificielles et sur la protection des droits d’auteur.

Ces accusations émanent de plusieurs auteurs et organisations défendant les droits des écrivains. Selon eux, Meta aurait utilisé des bases de données de livres piratés, notamment celles circulant sur des plateformes comme Library Genesis (LibGen), Z-Library ou encore Bibliotik, qui sont bien connues pour héberger des millions d’ouvrages sous copyright en accès gratuit et illégal. Ces ouvrages auraient servi à enrichir LLaMA (Large Language Model Meta AI), l’un des modèles de langage les plus avancés développés par Meta.

Un accès massif à des œuvres protégées

Des courriels récemment dévoilés fourniraient les « preuves les plus accablantes » contre Meta dans une affaire de droits d'auteur soulevée par des auteurs de livres alléguant que Meta a illégalement entraîné ses modèles d'intelligence artificielle sur des livres piratés.

Le mois dernier, Meta a admis avoir utilisé un vaste ensemble de données controversé connu sous le nom de LibGen, qui comprend des dizaines de millions de livres piratés. Mais les détails sont restés obscurs jusqu'à ce que les courriels non expurgés de Meta ont été rendus publics pour la première fois. Les nouvelles preuves montrent que Meta a utilisé « au moins 81,7 téraoctets de données provenant de plusieurs bibliothèques fantômes par l'intermédiaire du site Anna's Archive, dont au moins 35,7 téraoctets de données provenant de Z-Library et LibGen », indiquent les auteurs dans leur déclaration au tribunal. Et « Meta a aussi précédemment utilisé 80,6 téraoctets de données provenant de LibGen ».

« L'ampleur du système illégal de téléchargement de Meta est stupéfiante », affirment les auteurs, qui insistent sur le fait que « des actes de piratage de données bien moins importants - seulement 0,008 % de la quantité d'œuvres protégées par le droit d'auteur piratées par Meta - ont conduit les juges à renvoyer l'affaire au bureau des procureurs des États-Unis pour enquête criminelle ».

Le seeding élargit la théorie de distribution des auteurs

Les auteurs de livres ont fait pression sur Meta pour obtenir davantage d'informations sur les téléchargements par le biais de torrents en raison du problème apparemment évident de droit d'auteur que pose le seeding par Meta, et donc la distribution apparente, des livres piratés dans le cadre du litige.

Mais Meta s'est opposé à ces tentatives après qu'une ordonnance a rejeté la demande des auteurs d'examiner les données de Meta sur le torrenting et le seeding. Cela n'a pas empêché les auteurs de rassembler des preuves, y compris un document clé qui commence avec au moins un membre du personnel semblant plaisanter avec gêne sur les risques juridiques possibles, puis devenant plus sérieux en faisant part de ses inquiétudes (appendice A en source).

« Le torrenting à partir d'un ordinateur portable professionnel n'est pas une bonne chose », écrit Nikolay Bashlykov, un ingénieur de recherche de Meta, dans un message datant d'avril 2023, en ajoutant un emoji smiley. Dans le même message, il s'est dit « préoccupé par l'utilisation des adresses IP de Meta « pour charger des contenus pirates par le biais de torrents ».

En septembre 2023, Bashlykov avait apparemment laissé tomber les émojis, consultant directement l'équipe juridique et soulignant dans un courriel que « l'utilisation de torrents impliquerait le seeding des fichiers, c'est-à-dire le partage du contenu à l'extérieur, ce qui pourrait être légalement inacceptable ».

Les courriels portant sur le torrenting prouvent que Meta savait que c'était « illégal », affirment les auteurs. Les avertissements de Bashlykov semblent être restés lettre morte, les auteurs affirmant que les preuves montrent que Meta a choisi de dissimuler au mieux ses activités de torrent tout en téléchargeant et en envoyant des téraoctets de données à partir de plusieurs bibliothèques secrètes, et ce pas plus tard qu'en avril 2024.

Le torrenting est une méthode de téléchargement de fichiers depuis un réseau P2P à l'aide de fichiers torrents ou de liens magnets

Meta aurait dissimulé le seeding

Meta aurait tenté de dissimuler le seeding en n'utilisant pas les serveurs de Facebook lors du téléchargement de l'ensemble de données pour « éviter » le « risque » que quelqu'un « remonte jusqu'au seeder/downloader » à partir des serveurs...

La fin de cet article est réservée aux abonnés. Soutenez le Club Developpez.com en prenant un abonnement pour que nous puissions continuer à vous proposer des publications.

Une erreur dans cette actualité ? Signalez-nous-la !

Votre nom : Votre e-mail :

Décrivez l'erreur que vous souhaitez porter à notre connaissance :