Meta a utilisé des livres protégés par le droit d'auteur pour l'entraînement de l'IA malgré les avertissements de ses propres avocats

Selon une nouvelle plainte des auteurs

Le 13 décembre 2023 à 09:41, par Jade Emy

293PARTAGES

Meta a utilisé des livres protégés par le droit d'auteur pour l'entraînement de l'IA malgré les avertissements de ses propres avocats, selon une nouvelle plainte des auteurs.

Les avocats de Meta Platforms l'avaient prévenue des dangers juridiques liés à l'utilisation de milliers de livres piratés pour entraîner ses modèles d'IA, mais l'entreprise l'a quand même fait, selon un nouveau dépôt dans un procès pour violation du droit d'auteur initialement intenté cet été.

Le nouveau dossier déposé consolide deux actions en justice intentées contre le propriétaire de Facebook et d'Instagram par la comédienne Sarah Silverman, le lauréat du prix Pulitzer Michael Chabon et d'autres auteurs de renom, qui allèguent que Meta a utilisé leurs œuvres sans autorisation pour entraîner son modèle de langage d'intelligence artificielle, Llama.

Le mois dernier, un juge californien a rejeté une partie de l'action intentée par M. Silverman et a indiqué qu'il autoriserait les auteurs à modifier leurs revendications. La nouvelle plainte comprend des registres de conversation d'un chercheur affilié à Meta discutant de l'acquisition de l'ensemble de données dans un serveur Discord, un élément de preuve potentiellement important indiquant que Meta était conscient que son utilisation des livres n'était peut-être pas protégée par la loi américaine sur le droit d'auteur.

Dans les journaux de discussion cités dans la plainte, le chercheur Tim Dettmers décrit ses allers-retours avec le service juridique de Meta pour savoir si l'utilisation des fichiers de livres comme données d'entraînement serait "légalement acceptable". "Chez Facebook, de nombreuses personnes, dont moi-même, souhaitent travailler avec le fichier, mais dans sa forme actuelle, nous ne pouvons pas l'utiliser pour des raisons juridiques", a écrit Tim Dettmers en 2021, faisant référence à un ensemble de données que Meta a reconnu avoir utilisé pour entraîner sa première version de Llama, selon la plainte.

Le mois précédent, Dettmers a écrit que les avocats de Meta lui avaient dit que "les données ne peuvent pas être utilisées ou que les modèles ne peuvent pas être publiés s'ils sont entraînés sur ces données", selon la plainte. Bien que M. Dettmers ne décrive pas les préoccupations des avocats, ses homologues dans le chat identifient les "livres avec des droits d'auteur actifs" comme la plus grande source probable d'inquiétude. Ils affirment que la formation sur les données devrait "relever de l'usage loyal", une doctrine juridique américaine qui protège certaines utilisations sans licence d'œuvres protégées par le droit d'auteur.

M. Dettmers, doctorant à l'université de Washington, a déclaré qu'il n'était pas en mesure de commenter ces allégations dans l'immédiat.

Cette année, les entreprises technologiques ont fait l'objet d'une série de poursuites de la part de créateurs de contenu qui les accusent d'avoir détourné des œuvres protégées par le droit d'auteur pour créer des modèles d'IA générative qui ont fait sensation dans le monde entier et suscité une frénésie d'investissements. Si elles aboutissent, ces affaires pourraient freiner l'engouement pour l'IA générative, car elles pourraient augmenter le coût de construction des modèles gourmands en données en obligeant les entreprises d'IA à indemniser les artistes, les auteurs et les autres créateurs de contenu pour l'utilisation de leurs œuvres. Dans le même temps, les nouvelles règles provisoires européennes régissant l'intelligence artificielle pourraient obliger les entreprises à divulguer les données qu'elles utilisent pour former leurs modèles, ce qui les exposerait à un risque juridique accru.

Meta a publié une première version de son modèle linguistique Llama en février, ainsi qu'une liste d'ensembles de données utilisés pour l'entraînement, dont "la section Books3 de ThePile". La personne qui a assemblé cet ensemble de données a déclaré ailleurs qu'il contenait 196 640 livres, selon la plainte. L'entreprise n'a pas divulgué les données d'entraînement pour sa dernière version du modèle, Llama 2, qu'elle a mis à disposition pour un usage commercial cet été. Llama 2 est gratuit pour les entreprises comptant moins de 700 millions d'utilisateurs actifs mensuels. Son lancement a été perçu dans le secteur technologique comme pouvant changer la donne sur le marché des logiciels d'IA générative, menaçant de remettre en cause la domination d'acteurs tels qu'OpenAI et Google qui font payer l'utilisation de leurs modèles.

Source : Tim Dettmers, Université de Washington

Et vous ?

Pensez-vous que cette nouvelle plainte est crédible ou pertinente ?

Quel est votre avis sur le sujet ?

Voir aussi :

OpenAI et Meta accusés d'avoir utilisé les œuvres de Sarah Silverman et de deux auteurs sans leur consentement comme données d'entraînements de leurs IA. Les plaintes de ce type se multiplient

Meta a entraîné son IA à l'aide de vos publications publiques sur Facebook et Instagram

Des milliers d'auteurs s'opposent à l'exploitation de leur travail sans permission ni rémunération par l'IA générative. Certains ont déjà intenté des actions en justice contre OpenAI

Vous avez lu gratuitement 46 000 articles depuis plus d'un an.
Soutenez le club developpez.com en souscrivant un abonnement pour que nous puissions continuer à vous proposer des publications.

Une erreur dans cette actualité ? Signalez-nous-la !

Votre nom : Votre e-mail :

Décrivez l'erreur que vous souhaitez porter à notre connaissance :