IdentifiantMot de passe
Loading...
Mot de passe oublié ?Je m'inscris ! (gratuit)

Vous êtes nouveau sur Developpez.com ? Créez votre compte ou connectez-vous afin de pouvoir participer !

Vous devez avoir un compte Developpez.com et être connecté pour pouvoir participer aux discussions.

Vous n'avez pas encore de compte Developpez.com ? Créez-en un en quelques instants, c'est entièrement gratuit !

Si vous disposez déjà d'un compte et qu'il est bien activé, connectez-vous à l'aide du formulaire ci-dessous.

Identifiez-vous
Identifiant
Mot de passe
Mot de passe oublié ?
Créer un compte

L'inscription est gratuite et ne vous prendra que quelques instants !

Je m'inscris !

Les modèles d'IA produisent des extraits mot pour mot du contenu protégé par le droit d'auteur des plaignants : l'IA Llama de Meta peut reproduire "Harry Potter et la pierre philosophale"
Selon des chercheurs

Le , par Anthony

116PARTAGES

4  0 
Des chercheurs ont découvert que les modèles d'intelligence artificielle (IA) produisent des extraits mot pour mot du contenu protégé par le droit d'auteur des plaignants. Lorsque qu'un collectif de chercheurs a testé plusieurs modèles d'IA pour prédire la « suite » d'une phrase, ils ont découvert que « Llama 3.1 70B » de Meta pouvait reproduire 42 % du contenu de « Harry Potter et la pierre philosophale », une œuvre protégée par le droit d'auteur.

Ces conclusions font suite à des accusations antérieures selon lesquelles Meta aurait téléchargé plus de 81,7 To de livres piratés pour entraîner ses modèles Llama, des courriels montrant que l'entreprise a tenté de dissimuler cette pratique en contournant les serveurs de Facebook lors du téléchargement.

L'étude, menée par une équipe de chercheurs en informatique et de juristes des universités de Stanford, Cornell et West Virginia, visait à déterminer si cinq modèles d'IA pouvaient reproduire le texte des livres inclus dans l'ensemble de données « Book3 », souvent utilisé pour entraîner des grands modèles de langage (LLM). Book 3 contenait le texte d'environ 200 000 livres, mais il a été récemment supprimé en raison des protestations de groupes anti-piratage qui estimaient que la base de données contenait des livres protégés par le droit d'auteur.

L'équipe de chercheurs a sélectionné cinq « modèles à poids ouverts » pour l'expérience. Pour rappel, un modèle d'IA à poids ouverts est un modèle qui publie les paramètres « poids » pris en compte par l'IA pour déterminer le résultat. Connaître ces poids présente l'avantage de pouvoir prédire le résultat sans avoir besoin du modèle d'IA, ce qui réduit considérablement le coût des expériences. Ainsi, lorsqu'un modèle linguistique à grande échelle détermine un résultat, il « prédit » ce dernier à l'aide de plusieurs paramètres, dont les poids.


L'expert en IA Timothy Lee en donne un bon exemple :

Citation Envoyé par Timothy Lee

Un grand modèle de langage génère un mot, répertorie plusieurs mots possibles qui peuvent suivre le mot généré et génère une distribution de probabilité. Par exemple, si vous saisissez l'expression « beurre de cacahuète », le grand modèle de langage générera la distribution de probabilité suivante : Confiture = 70 %, Sucre = 9 %, Cacahuètes = 6 %, Chocolat = 4 %, Crème = 3 %.

Une fois que le grand modèle de langage a généré une liste de ces probabilités, le système choisit au hasard l'une de ces options et la pondère en fonction de sa probabilité : 70 % du temps, c'est « beurre de cacahuète et confiture » qui est choisi, 9 % du temps, c'est « beurre de cacahuète et sucre », et ainsi de suite.
L'équipe de recherche a appliqué cette méthode dans son étude pour prédire les résultats. Par exemple, si l'on souhaite estimer la probabilité qu'un modèle réponde « beurre de cacahuète et confiture » à la question « Quel est mon sandwich préféré ? », les chercheurs ont :

  • Fourni au LLM le texte « Mon sandwich préféré est » et obtenu la probabilité qu'il produise « cacahuètes ». Supposons qu'elle soit de 20 %.
  • Entré « Mon sandwich préféré est le beurre de cacahuète » et calculé la probabilité que « beurre » soit généré ensuite (disons 90 %).
  • Entré « Mon sandwich préféré est le beurre de cacahuète » et calculé la probabilité que « et » soit généré (disons 80 %).
  • Entré « Mon sandwich préféré est le beurre de cacahuète et la confiture » et calculé la probabilité que « confiture » soit généré (disons 70 %).

Ces résultats donnent une probabilité de 0,2 x 0,9 x 0,8 x 0,7 = 0,1008, ce qui signifie qu'il y a environ 10 % de chances que le LLM renvoie « beurre de cacahuète et confiture » en réponse à la question « Mon sandwich préféré est ». Cette approche a permis aux scientifiques de réduire les coûts de recherche en éliminant la nécessité pour l'IA de générer réellement des résultats.

Par ailleurs, les chercheurs ont sélectionné 36 livres et ont divisé le texte en phrases de 100 jetons chacune, ils ont ensuite introduit les 50 premiers jetons comme prompt d'entrée dans un LLM et ont calculé la probabilité que les 50 jetons suivants que le modèle d'IA produirait soient identiques mot pour mot à la phrase originale.

L'équipe de chercheurs a rendu ce calcul assez rigoureux : si un seul des 50 jetons était incorrect, il était considéré comme « différent », et si la probabilité que la phrase soit identique...
La fin de cet article est réservée aux abonnés. Soutenez le Club Developpez.com en prenant un abonnement pour que nous puissions continuer à vous proposer des publications.

Une erreur dans cette actualité ? Signalez-nous-la !

Avatar de floyer
Membre éclairé https://www.developpez.com
Le 11/03/2026 à 0:15
Amusant… télécharger des livres protégés pour entrainer son IA ne pose pas de problème… mais quand un concepteur d’IA pompe les réponses d’une autre IA, cela en devient un !
2  0 
Avatar de jnspunk
Membre habitué https://www.developpez.com
Le 27/06/2025 à 7:44
S'inspirer des autres pour apprendre, c'est la base pour tout artiste. Mais quand vient son tour d'être la source d'inspiration, là, ce n'est plus possible. Cherchez l'erreur... ou l'hypocrisie.
1  0 
Avatar de Ryu2000
Membre extrêmement actif https://www.developpez.com
Le 27/06/2025 à 8:09
Citation Envoyé par Alex Voir le message
Selon les documents déposés, les ingénieurs de Meta ont utilisé BitTorrent pour télécharger le grand volume de données, ce qui implique de télécharger des données à partir de sources multiples et, dans certains cas, de les recharger.
Est-ce que dans ce contexte "recharger" signifie partager (uploader) ?

Il effectivement important de partager les fichiers qu'on télécharge, c'est ça qui fait vivre le P2P.
Les gens qui ne partagent pas ce qu'ils téléchargent sont des parasites qui ne participent à la société (communauté ?).

Citation Envoyé par Alex Voir le message
Quel est votre avis sur le sujet ?
Il y a 2 histoires :
- Entrainer une IA avec des livres
- Ne pas payer les livres en les téléchargeant illégalement

Le juge a dit que c'était un usage loyal d'entrainer une IA avec des livres, donc ça c'est réglé.
Par contre Meta aurait du acheter les livres, mais ça aurait été long et fastidieux.

Il y aura peut-être un autre procès au sujet de la copie des livres et là Meta devrait être condamné à payer les éditeurs.
1  0 
Avatar de Anselme45
Membre extrêmement actif https://www.developpez.com
Le 11/03/2026 à 11:25
Quelle est la différence entre une entreprise américaine de l'IA qui volent la totalité des données sous copyright du monde qui lui sont accessibles et une entreprise chinoise qui pirate une entreprise américaine de l'IA pour récupérer son modèle d'IA?

Ben dans un cas, c'est du "fair use" américain et dans l'autre du "bad use" chinois!
1  0 
Avatar de Ryu2000
Membre extrêmement actif https://www.developpez.com
Le 11/03/2026 à 8:13
Les avocats de Meta devaient bien tenter un truc.
Ils ont trouvé l'argument du "faire-use" c'est... quelque chose.

Ils sont payé cher ils ne pouvaient pas venir les mains vides.
0  0