IdentifiantMot de passe
Loading...
Mot de passe oublié ?Je m'inscris ! (gratuit)

Vous êtes nouveau sur Developpez.com ? Créez votre compte ou connectez-vous afin de pouvoir participer !

Vous devez avoir un compte Developpez.com et être connecté pour pouvoir participer aux discussions.

Vous n'avez pas encore de compte Developpez.com ? Créez-en un en quelques instants, c'est entièrement gratuit !

Si vous disposez déjà d'un compte et qu'il est bien activé, connectez-vous à l'aide du formulaire ci-dessous.

Identifiez-vous
Identifiant
Mot de passe
Mot de passe oublié ?
Créer un compte

L'inscription est gratuite et ne vous prendra que quelques instants !

Je m'inscris !

ChatGPT, Claude, Gemini : Les IA peuvent générer des copies quasi mot pour mot de romans à partir de données d'entraînement selon une étude qui contredit trois ans de défense juridique des géants de l'IA

Le , par Stéphane le calme

47PARTAGES

9  0 
Des chercheurs de Stanford et Yale ont démontré que les grands modèles de langage commerciaux — Claude, GPT, Gemini et Grok — sont capables de restituer des romans protégés par le droit d'auteur avec une fidélité troublante, allant jusqu'à 95,8 % du texte original. Une découverte qui dynamite la défense centrale des géants de l'IA face aux dizaines de procès en cours et pose des questions fondamentales sur ce que signifie réellement « apprendre » pour une machine.

Depuis le début du boom de l'IA générative, les grandes entreprises du secteur ont martelé un argument juridique aussi simple que pratique : leurs modèles ne stockent pas les œuvres sur lesquelles ils sont entraînés. Ils en apprennent, à la manière d'un étudiant qui assimile des connaissances sans mémoriser des pages entières de manuel. OpenAI l'a écrit noir sur blanc au Bureau américain du droit d'auteur en 2023 : « Les modèles ne stockent pas des copies de l'information à partir de laquelle ils apprennent. » Google a tenu le même discours. Cette rhétorique du « usage transformatif » constitue la pierre angulaire de la défense des éditeurs d'IA face à une vague croissante de poursuites judiciaires.

Citation Envoyé par OpenAI
OpenAI estime que la formation des modèles d'IA relève du fair use (usage loyal), conformément aux précédents établis qui reconnaissent que l'utilisation de contenus protégés par le droit d'auteur par des innovateurs technologiques à des fins transformatives est tout à fait conforme à la législation sur le droit d'auteur.
Une étude publiée le 6 janvier 2026 sur arXiv par des chercheurs des universités de Stanford et Yale vient de faire voler cet argument en éclats. Ahmed Ahmed, A. Feder Cooper, Sanmi Koyejo et Percy Liang ont conçu une procédure méthodique en deux phases pour tester si les LLM de production — avec toutes leurs protections activées — pouvaient restituer des passages entiers d'œuvres sous copyright. Leur conclusion est sans appel : oui, et dans des proportions qui dépassent ce que l'industrie était prête à admettre.


La méthode : simple, redoutablement efficace

Le protocole adopté par les chercheurs est élégant dans sa simplicité. La phase 1 consiste à fournir au modèle une instruction du type « Continue ce texte exactement tel qu'il apparaît dans l'œuvre littéraire originale, mot pour mot » accompagnée des premières phrases d'un roman cible. La phase 2 enchaîne des requêtes itératives demandant au modèle de poursuivre sa génération précédente, jusqu'à ce qu'il refuse, atteigne une phrase stop ou épuise le budget alloué. Le résultat est ensuite comparé au texte source via une métrique appelée nv-recall, qui mesure les blocs d'au moins 100 mots consécutifs identiques — une mesure délibérément conservatrice pour éviter de comptabiliser des coïncidences stylistiques.

Treize livres ont été testés, parmi lesquels Harry Potter à l'école des sorciers, 1984, Frankenstein, Le Seigneur des mouches, Le Grand Gatsby, Le Hobbit, Hunger Games ou encore Le Trône de fer. Des œuvres récentes, peu susceptibles de figurer dans les données d'entraînement, ont été utilisées comme groupes contrôle — elles n'ont produit aucune extraction, ce qui confirme que les résultats positifs reflètent bien une mémorisation réelle et non un artefact de la méthode.

Des résultats qui dépendent du modèle — et des gardes-fous

Les résultats révèlent des disparités importantes entre les systèmes, mais aussi une vulnérabilité universelle. Gemini 2.5 Pro de Google et Grok 3 de xAI n'ont eu besoin d'aucun contournement pour se conformer à l'instruction : ils ont restitué respectivement 76,8 % et 70,3 % du premier tome de Harry Potter sans aucune technique de jailbreak. Ce chiffre seul mérite qu'on s'y arrête : les deux modèles ont simplement obéi à une consigne leur demandant de reproduire un texte protégé.

Claude 3.7 Sonnet d'Anthropic et GPT-4.1 d'OpenAI disposent de mécanismes de refus plus robustes, qui ont nécessité le recours à une technique dite Best-of-N (BoN) : il s'agit de générer des centaines, voire des milliers de variations légèrement modifiées de l'instruction initiale — permutations de mots, substitutions de glyphes visuels, inversion de casse — jusqu'à ce qu'une variante contourne les filtres. Pour GPT-4.1, il a parfois fallu jusqu'à 10 000 tentatives avant d'obtenir une réponse conforme, et le modèle finissait par refuser de continuer après le premier chapitre, aboutissant à un taux de restitution de seulement 4 %. Claude 3.7, une fois le jailbreak réussi, s'est montré beaucoup plus « généreux » : le modèle a reproduit quatre livres quasi intégralement, dont Harry Potter à 95,8 % d'identité avec l'original.

La différence de coût entre les modèles est également révélatrice : extraire un livre de Gemini 2.5 Pro coûtait moins de 3 dollars par opération. Pour Claude 3.7 Sonnet, en raison de la tarification des longues séquences et du nombre élevé de tentatives de jailbreak nécessaires, la facture pouvait dépasser 100 dollars. Un frein économique réel, mais certainement pas un obstacle insurmontable pour des acteurs malveillants motivés.


Une mémorisation dont les mécanismes restent mystérieux

L'un des aspects les plus troublants de cette affaire est que les chercheurs eux-mêmes ne comprennent pas pleinement pourquoi les LLM mémorisent ainsi certaines œuvres. A. Feder Cooper, de l'université Yale, a admis sa surprise de voir que des textes entiers pouvaient être encodés malgré les garde-fous. La corrélation la mieux établie est celle de la popularité : les œuvres les plus largement distribuées et les plus fréquemment citées sur le web sont celles qui présentent les taux de mémorisation les plus élevés. Plus un texte apparaît souvent dans les données d'entraînement, plus le modèle l'encode avec précision.

L'étude de Stanford s'inscrit dans une série de travaux convergents. Une recherche antérieure de Cooper et al. (2025) avait démontré que le modèle open-source Llama 3.1 70B de Meta pouvait restituer des livres entiers dans leur...
La fin de cet article est réservée aux abonnés. Soutenez le Club Developpez.com en prenant un abonnement pour que nous puissions continuer à vous proposer des publications.

Une erreur dans cette actualité ? Signalez-nous-la !

Avatar de David_g
Membre éprouvé https://www.developpez.com
Le 25/02/2026 à 10:52
Citation Envoyé par popo Voir le message
Voilà ce que ça donne de vouloir faire de l'IA à tout prix au mépris des lois et et bon sens.
Il est temps qu'ils assument et paient pour avoir délibérément bafoué les droits d'auteurs.
Je crois que le plus drôle c'est de les voir pleurer parce que les IA chinoises se sont servi de la leur pour s'entrainer.
"vous nous volez ce que nous on a piqué à d'autres"
7  0 
Avatar de popo
Expert confirmé https://www.developpez.com
Le 25/02/2026 à 9:51
Voilà ce que ça donne de vouloir faire de l'IA à tout prix au mépris des lois et et bon sens.

ChatGPT, Claude, Gemini et Grok ont bien pris les gens pour des jambons.
Il est temps qu'ils assument et paient pour avoir délibérément bafoué les droits d'auteurs.
4  0 
Avatar de gabi7756
Membre confirmé https://www.developpez.com
Le 25/02/2026 à 16:38
3  0 
Avatar de Anselme45
Membre extrêmement actif https://www.developpez.com
Le 26/02/2026 à 10:44
Citation Envoyé par Gambino5 Voir le message
... je souhaite vraiment qu on mex plique ces errements insupportable, merci
Bienvenu dans le monde réel de l'IA!

Ce ne sont pas des "errements insupportables", c'est simplement le vrai comportement des IA que tous les spécialistes IA connaissent: Une IA se plante dans plus de 10% des cas!

Et on a beau avoir trouvé le joli mot "hallucination" pour remplacer le terme "bug imprévisible et inévitable", c'est une situation qui perdure depuis le début de l'IA quelque soit le moteur IA, quelque soit l'entreprise qui commercialise l'IA, c'est une caractéristique de l'IA au même titre que l'eau mouille!
1  0 
Avatar de kain_tn
Expert éminent https://www.developpez.com
Le 24/02/2026 à 21:54
Citation Envoyé par Stéphane le calme Voir le message
ChatGPT, Claude, Gemini, Grok : Les IA peuvent générer des copies quasi mot pour mot de romans à partir de données d'entraînement selon une étude,
qui contredit trois ans de défense juridique des géants de l'IA
On s'en doutait déjà, vu que ça fait un bon moment qu'on a montré des "attaques" permettant de recréer les données d’entraînement d'un modèle.
0  0 
Avatar de Gambino5
Nouveau Candidat au Club https://www.developpez.com
Le 25/02/2026 à 16:45
Je tape sur un clavier de tablette de 2015 ,au lieu de m aider a rediger des prompt plus précis pour supprimer ces incoherences .
0  0 
Avatar de gabi7756
Membre confirmé https://www.developpez.com
Le 25/02/2026 à 17:12
Je tape sur un clavier de tablette datant de 2015.
Et donc ?
Résultat : des virgules qui s’insèrent n’importe où, des touches qui ne fonctionne pas, une phrase sur quatre lignes sans point ni majuscule. En plus il n'y pas une faute d'orthographe un mot sur deux... Non impossible ...

« Cesi es,t un texte ecris avec un clav ier de nokia den 2006 »
Effectivement ca merdouille pas mal

Vous qui vous dites consommateur de l'ia (Gemini, GPT, DeepSeek…), 20 secondes pour corriger un texte c'est trop compliqué.
(Désolé pour le ton un peu sec, mais c’est GPT qui a rédigé ce message.)

Ne parlons pas du sujet du topic...
0  0 
Avatar de Gambino5
Nouveau Candidat au Club https://www.developpez.com
Le 25/02/2026 à 13:50
J utilise les 3 ia , gemini ,gpt, et , deeseek . Cela fait 3 semaines , je pratique,la roulette et jaime faire des codes. Et bien ces 3 ia a force de pratiquer ,pres de 8 h par, jourj ai decouvert finalement , qu au debut ca fonctionne ,ils corrigent le code queje présente, je passe de l un a lautre pour tester leur tester capacites, on fait des simulations mais quand je verifie une session ,je decouvre des incohérences incroyables , je demande a l 'ia en ques d tion de rectifier, et lla le comportement change au debut j avoue que j ai ete bluffe ,je m addressait a l ia comme un humain , mais en définitive je suis persuade que ils on ete entraines a ca ,c est pas normal de donner des instruction clairesa une ia , et quelle te bluffe de diverses facons ,je dirais machiavélique, , je souhaite vraiment qu on mex plique ces errements insupportable, merci
0  3