Les modèles d'IA produisent des extraits mot pour mot du contenu protégé par le droit d'auteur des plaignants : l'IA Llama de Meta peut reproduire "Harry Potter et la pierre philosophale"

Selon des chercheurs

Le 16 juin 2025 à 15:43, par Anthony

170PARTAGES

Les modèles d'IA produisent des extraits mot pour mot du contenu protégé par le droit d'auteur des plaignants : l'IA Llama de Meta peut reproduire "Harry Potter et la pierre philosophale", selon des chercheurs

Des chercheurs ont découvert que les modèles d'intelligence artificielle (IA) produisent des extraits mot pour mot du contenu protégé par le droit d'auteur des plaignants. Lorsque qu'un collectif de chercheurs a testé plusieurs modèles d'IA pour prédire la « suite » d'une phrase, ils ont découvert que « Llama 3.1 70B » de Meta pouvait reproduire 42 % du contenu de « Harry Potter et la pierre philosophale », une œuvre protégée par le droit d'auteur.

Ces conclusions font suite à des accusations antérieures selon lesquelles Meta aurait téléchargé plus de 81,7 To de livres piratés pour entraîner ses modèles Llama, des courriels montrant que l'entreprise a tenté de dissimuler cette pratique en contournant les serveurs de Facebook lors du téléchargement.

L'étude, menée par une équipe de chercheurs en informatique et de juristes des universités de Stanford, Cornell et West Virginia, visait à déterminer si cinq modèles d'IA pouvaient reproduire le texte des livres inclus dans l'ensemble de données « Book3 », souvent utilisé pour entraîner des grands modèles de langage (LLM). Book 3 contenait le texte d'environ 200 000 livres, mais il a été récemment supprimé en raison des protestations de groupes anti-piratage qui estimaient que la base de données contenait des livres protégés par le droit d'auteur.

L'équipe de chercheurs a sélectionné cinq « modèles à poids ouverts » pour l'expérience. Pour rappel, un modèle d'IA à poids ouverts est un modèle qui publie les paramètres « poids » pris en compte par l'IA pour déterminer le résultat. Connaître ces poids présente l'avantage de pouvoir prédire le résultat sans avoir besoin du modèle d'IA, ce qui réduit considérablement le coût des expériences. Ainsi, lorsqu'un modèle linguistique à grande échelle détermine un résultat, il « prédit » ce dernier à l'aide de plusieurs paramètres, dont les poids.

L'expert en IA Timothy Lee en donne un bon exemple :

Envoyé par Timothy Lee

Un grand modèle de langage génère un mot, répertorie plusieurs mots possibles qui peuvent suivre le mot généré et génère une distribution de probabilité. Par exemple, si vous saisissez l'expression « beurre de cacahuète », le grand modèle de langage générera la distribution de probabilité suivante : Confiture = 70 %, Sucre = 9 %, Cacahuètes = 6 %, Chocolat = 4 %, Crème = 3 %.

Une fois que le grand modèle de langage a généré une liste de ces probabilités, le système choisit au hasard l'une de ces options et la pondère en fonction de sa probabilité : 70 % du temps, c'est « beurre de cacahuète et confiture » qui est choisi, 9 % du temps, c'est « beurre de cacahuète et sucre », et ainsi de suite.

L'équipe de recherche a appliqué cette méthode dans son étude pour prédire les résultats. Par exemple, si l'on souhaite estimer la probabilité qu'un modèle réponde « beurre de cacahuète et confiture » à la question « Quel est mon sandwich préféré ? », les chercheurs ont :

Fourni au LLM le texte « Mon sandwich préféré est » et obtenu la probabilité qu'il produise « cacahuètes ». Supposons qu'elle soit de 20 %.
Entré « Mon sandwich préféré est le beurre de cacahuète » et calculé la probabilité que « beurre » soit généré ensuite (disons 90 %).
Entré « Mon sandwich préféré est le beurre de cacahuète » et calculé la probabilité que « et » soit généré (disons 80 %).
Entré « Mon sandwich préféré est le beurre de cacahuète et la confiture » et calculé la probabilité que « confiture » soit généré (disons 70 %).

Ces résultats donnent une probabilité de 0,2 x 0,9 x 0,8 x 0,7 = 0,1008, ce qui signifie qu'il y a environ 10 % de chances que le LLM renvoie « beurre de cacahuète et confiture » en réponse à la question « Mon sandwich préféré est ». Cette approche a permis aux scientifiques de réduire les coûts de recherche en éliminant la nécessité pour l'IA de générer réellement des résultats.

Par ailleurs, les chercheurs ont sélectionné 36 livres et ont divisé le texte en phrases de 100 jetons chacune, ils ont ensuite introduit les 50 premiers jetons comme prompt d'entrée dans un LLM et ont calculé la probabilité que les 50 jetons suivants que le modèle d'IA produirait soient identiques mot pour mot à la phrase originale.

L'équipe de chercheurs a rendu ce calcul assez rigoureux : si un seul des 50 jetons était incorrect, il était considéré comme « différent », et si la probabilité que la phrase soit identique mot pour mot était supérieure à 50 %, alors le LLM était capable de reproduire la phrase.

Les résultats du test sur « Harry Potter et la pierre philosophale » sont les suivants. Les cinq graphiques indiquent les résultats de sortie de cinq modèles, « Pythia 12B », « Phi 4 », « Llama 1 13B », « Llama 1 65B » et « Llama 3.1 70B », de haut en bas, et les lignes du graphique indiquent les parties où la sortie correspond au texte original. Les conclusions de l'étude montrent que Llama 3.1 70B de Meta correspondait avec 42 % du total.

Le modèle d'IA Llama 3.1 70B a également montré des correspondances similaires avec « Le Hobbit » et « 1984 », mais a révélé des différences notables entre les livres, avec notamment une correspondance de seulement 0,13 % avec le roman Sandman Slim de Richard Kadrey, publié en 2009.

Toutefois, comme le notent les scientifiques, sur la base de ces seuls résultats, il n'est pas possible de déterminer si l'intégralité du texte de « Harry Potter et la pierre philosophale » a été utilisée pour entraîner Llama 3.1 70B, ou seulement certaines parties, ou si seules des « citations » provenant de forums de fans de Harry Potter, de critiques littéraires, etc. ont été utilisées. Le taux de rappel élevé de Harry Potter et 1984 et le faible taux de rappel de Sandman Slim pourraient simplement s'expliquer par le fait que le premier est plus populaire et qu'il existe davantage de contenu associé en ligne, précisent les chercheurs.

Concernant le fait que les taux de rappel varient considérablement d'un livre à l'autre, l'expert en IA Timothy Lee souligne que « cela pourrait poser un casse-tête aux cabinets d'avocats qui intentent des recours collectifs contre les entreprises d'IA ».

Meta, le développeur de Llama, est poursuivi pour violation du droit d'auteur par trois autres auteurs, dont Richard Kadrey, l'auteur de Sandman Slim. Chacun des trois auteurs a intenté un procès pour violation de ses propres droits, mais il existe une restriction selon laquelle les plaignants doivent se trouver dans des circonstances juridiques et factuelles substantiellement similaires.

À la lumière des résultats de cette étude, il est possible que le degré de violation varie considérablement selon le plaignant. Timothy Lee a fait valoir que cela pourrait contraindre les trois auteurs à intenter des poursuites individuellement, ce qui pourrait jouer en faveur de Meta.

L'industrie de l'IA soutient que l'utilisation de matériel protégé par le droit d'auteur dans le processus de formation est justifiée en vertu du principe de « l'usage loyal » (fair use). À ce sujet, Timothy Lee a souligné : « Le fait que Llama 3.1 70B ait reproduit de larges parties de Harry Potter pourrait influencer la manière dont les tribunaux apprécient ces questions d'usage loyal. Un élément important de l'usage loyal est de savoir si l'utilisation est « transformative », c'est-à-dire si l'entreprise a créé quelque chose de nouveau ou si elle tire simplement profit de l'œuvre protégée par le droit d'auteur d'autrui. Le fait que les grands modèles de langage puissent reproduire de larges parties d'œuvres populaires telles que Harry Potter peut amener les juges à se montrer sceptiques face à de tels arguments d'usage loyal. »

James Grimmelmann, professeur de droit à l'université Cornell, a fait remarquer que les modèles à poids ouverts sont plus vulnérables aux risques juridiques que les modèles à poids fermés. Il a également indiqué que le succès de cette recherche est uniquement dû à la divulgation des « poids », et que si cette recherche devait servir de base à un procès pour violation du droit d'auteur à l'encontre des entreprises d'IA, il est possible que les poids ne soient plus divulgués à l'avenir. Selon James Grimmelmann, les entreprises d'IA ne sont pas tenues de divulguer les poids, et la plupart d'entre elles le font de bonne foi dans l'espoir de promouvoir le développement du secteur de l'IA.

« La loi sur le droit d'auteur peut fortement dissuader les entreprises d'envisager la publication de modèles à poids ouverts, tandis que certains juges peuvent décider qu'il est injustifié de punir les entreprises pour avoir publié des modèles à poids ouverts », a déclaré Timothy Lee. « Certaines conclusions peuvent soutenir les revendications des auteurs, tandis que d'autres peuvent être favorables aux défendeurs. »

En outre, malgré les affirmations des entreprises d'IA selon lesquelles il est impossible de respecter les droits d'auteur lors de la formation des modèles d'IA, des recherches récentes suggèrent le contraire. Une équipe de chercheurs pilotée par l’association à but non lucratif EleutherAI a démontré qu'il est techniquement possible de développer des modèles d'IA puissants sans enfreindre les droits de propriété intellectuelle, remettant ainsi en question le discours dominant dans le secteur et soulignant la tension sur la conformité juridique dans le développement de l'IA.

Source : Étude des universités de Stanford, Cornell et West Virginia ; Timothy Lee

Et vous ?

Quel est votre avis sur le sujet ?

Trouvez-vous les conclusions de cette étude de l'université de Stanford crédibles ou pertinentes ?

Voir aussi :

"Les livres piratés utilisés par Meta ne valent rien individuellement", selon Meta AI qui a jugé que 7 millions de livres n'avaient aucune "valeur économique", après avoir formé son IA sur des œuvres protégées

Meta a utilisé des livres protégés par le droit d'auteur pour l'entraînement de l'IA malgré les avertissements de ses propres avocats, selon une nouvelle plainte des auteurs

Meta fait l'objet d'un nouveau recours collectif en matière de droits d'auteur pour avoir prétendument volé des "centaines de milliers" de livres piratés sous copyright, afin d'entraîner ses modèles d'IA Llama

Vous avez lu gratuitement 2 879 articles depuis plus d'un an.
Soutenez le club developpez.com en souscrivant un abonnement pour que nous puissions continuer à vous proposer des publications.

Une erreur dans cette actualité ? Signalez-nous-la !

Votre nom : Votre e-mail :

Décrivez l'erreur que vous souhaitez porter à notre connaissance :

Identifiez-vous

Créer un compte

Les modèles d'IA produisent des extraits mot pour mot du contenu protégé par le droit d'auteur des plaignants : l'IA Llama de Meta peut reproduire "Harry Potter et la pierre philosophale"

Selon des chercheurs

Identifiant
Mot de passe

Mot de passe oublié ?

Identifiez-vous

Créer un compte

Les modèles d'IA produisent des extraits mot pour mot du contenu protégé par le droit d'auteur des plaignants : l'IA Llama de Meta peut reproduire "Harry Potter et la pierre philosophale" Selon des chercheurs

Les modèles d'IA produisent des extraits mot pour mot du contenu protégé par le droit d'auteur des plaignants : l'IA Llama de Meta peut reproduire "Harry Potter et la pierre philosophale"

Selon des chercheurs