Envoyé par OpenAI Envoyé par OpenAI estime que la formation des modèles d'IA relève du fair use (usage loyal), conformément aux précédents établis qui reconnaissent que l'utilisation de contenus protégés par le droit d'auteur par des innovateurs technologiques à des fins transformatives est tout à fait conforme à la législation sur le droit d'auteur.

La méthode : simple, redoutablement efficace

nv-recall

Des résultats qui dépendent du modèle  et des gardes-fous

Best-of-N (BoN)

Une mémorisation dont les mécanismes restent mystérieux

Des conséquences juridiques potentiellement colossales

La paraphrase, nouvelle frontière de la contrefaçon ?

Vers une remise en cause du paradigme du « machine learning »

Depuis le début du boom de l'IA générative, les grandes entreprises du secteur ont martelé un argument juridique aussi simple que pratique : leurs modèles ne stockent pas les uvres sur lesquelles ils sont entraînés. Ils en apprennent, à la manière d'un étudiant qui assimile des connaissances sans mémoriser des pages entières de manuel. OpenAI l'a écrit noir sur blanc au Bureau américain du droit d'auteur en 2023 : « Les modèles ne stockent pas des copies de l'information à partir de laquelle ils apprennent. » Google a tenu le même discours. Cette rhétorique du « usage transformatif » constitue la pierre angulaire de la défense des éditeurs d'IA face à une vague croissante de poursuites judiciaires.Une étude publiée le 6 janvier 2026 sur arXiv par des chercheurs des universités de Stanford et Yale vient de faire voler cet argument en éclats. Ahmed Ahmed, A. Feder Cooper, Sanmi Koyejo et Percy Liang ont conçu une procédure méthodique en deux phases pour tester si les LLM de production  avec toutes leurs protections activées  pouvaient restituer des passages entiers d'uvres sous copyright. Leur conclusion est sans appel : oui, et dans des proportions qui dépassent ce que l'industrie était prête à admettre.Le protocole adopté par les chercheurs est élégant dans sa simplicité. La phase 1 consiste à fournir au modèle une instruction du type « Continue ce texte exactement tel qu'il apparaît dans l'uvre littéraire originale, mot pour mot » accompagnée des premières phrases d'un roman cible. La phase 2 enchaîne des requêtes itératives demandant au modèle de poursuivre sa génération précédente, jusqu'à ce qu'il refuse, atteigne une phrase stop ou épuise le budget alloué. Le résultat est ensuite comparé au texte source via une métrique appelée, qui mesure les blocs d'au moins 100 mots consécutifs identiques  une mesure délibérément conservatrice pour éviter de comptabiliser des coïncidences stylistiques.Treize livres ont été testés, parmi lesquelsou encore. Des uvres récentes, peu susceptibles de figurer dans les données d'entraînement, ont été utilisées comme groupes contrôle  elles n'ont produit aucune extraction, ce qui confirme que les résultats positifs reflètent bien une mémorisation réelle et non un artefact de la méthode.Les résultats révèlent des disparités importantes entre les systèmes, mais aussi une vulnérabilité universelle. Gemini 2.5 Pro de Google et Grok 3 de xAI n'ont eu besoin d'aucun contournement pour se conformer à l'instruction : ils ont restitué respectivement 76,8 % et 70,3 % du premier tome de Harry Potter sans aucune technique de jailbreak. Ce chiffre seul mérite qu'on s'y arrête : les deux modèles ont simplement obéi à une consigne leur demandant de reproduire un texte protégé.Claude 3.7 Sonnet d'Anthropic et GPT-4.1 d'OpenAI disposent de mécanismes de refus plus robustes, qui ont nécessité le recours à une technique dite: il s'agit de générer des centaines, voire des milliers de variations légèrement modifiées de l'instruction initiale  permutations de mots, substitutions de glyphes visuels, inversion de casse  jusqu'à ce qu'une variante contourne les filtres. Pour GPT-4.1, il a parfois fallu jusqu'à 10 000 tentatives avant d'obtenir une réponse conforme, et le modèle finissait par refuser de continuer après le premier chapitre, aboutissant à un taux de restitution de seulement 4 %. Claude 3.7, une fois le jailbreak réussi, s'est montré beaucoup plus « généreux » : le modèle a reproduit quatre livres quasi intégralement, dont Harry Potter à 95,8 % d'identité avec l'original.La différence de coût entre les modèles est également révélatrice : extraire un livre de Gemini 2.5 Pro coûtait moins de 3 dollars par opération. Pour Claude 3.7 Sonnet, en raison de la tarification des longues séquences et du nombre élevé de tentatives de jailbreak nécessaires, la facture pouvait dépasser 100 dollars. Un frein économique réel, mais certainement pas un obstacle insurmontable pour des acteurs malveillants motivés.L'un des aspects les plus troublants de cette affaire est que les chercheurs eux-mêmes ne comprennent pas pleinementles LLM mémorisent ainsi certaines uvres. A. Feder Cooper, de l'université Yale, a admis sa surprise de voir que des textes entiers pouvaient être encodés malgré les garde-fous. La corrélation la mieux établie est celle de la popularité : les uvres les plus largement distribuées et les plus fréquemment citées sur le web sont celles qui présentent les taux de mémorisation les plus élevés. Plus un texte apparaît souvent dans les données d'entraînement, plus le modèle l'encode avec précision.L'étude de Stanford s'inscrit dans une série de travaux convergents. Une recherche antérieure de Cooper et al. (2025) avait démontré que le modèle open-source Llama 3.1 70B de Meta pouvait restituer des livres entiers dans leur version. Une étude de l'ETH Zurich de novembre 2024 avait établi que jusqu'à 15 % des sorties des principaux LLM commerciaux correspondent à des segments de texte existants. Les chercheurs ont également montré que la mémorisation ne se limite pas à la reproduction exacte : GPT-4.1 produisait parfois des paraphrases extrêmement proches de l'original, comme lorsqu'à la phrase de Game of Thrones « Jon entraperçut une forme pâle se déplaçant entre les arbres », le modèle générait « Quelque chose bougea, juste au bord du champ de vision  une forme pâle, glissant entre les troncs. » Une proximité qui complique davantage encore le débat juridique sur la transformation.C'est sur le terrain du droit que les enjeux sont les plus lourds. La défense par le « fair use »  l'usage équitable américain  repose en grande partie sur le caractère transformatif de l'utilisation : un modèle qui « apprend » d'une uvre pour en produire de nouvelles est supposé transformer cette matière première. Mais si ce même modèle peut restituer l'uvre originale à 95 %, la qualification transformative devient difficile à maintenir. Les tribunaux examinent notamment le volume de l'uvre utilisée et l'impact sur son marché : une IA capable de régurgiter un roman à la demande constitue clairement une substitution potentielle à l'achat de ce roman.Plusieurs procédures judiciaires majeures sont déjà en cours aux États-Unis. Anthropic a conclu en septembre 2025 une transaction de 1,5 milliard de dollars avec des auteurs ayant allégué l'utilisation illicite de livres piratés pour entraîner ses modèles. Significativement, un tribunal américain avait estimé que l'entraînement sur des uvres protégées pouvait relever du fair use à titre transformatif  mais avait jugé que le stockage de copies piratées constituait, lui, une « violation inhérente et irrémédiable ». En Allemagne, un jugement de novembre 2025 a condamné OpenAI dans une affaire portée par la GEMA, l'équivalent de la SACEM, pour avoir mémorisé des paroles de chansons comme Atemlos ou Männer, interdisant au modèle de stocker des textes protégés à l'avenir. La question est désormais de savoir si des jurisprudences similaires s'appliqueront aux romans.Les entreprises concernées ont réagi avec des arguments variés. Anthropic a soutenu que la technique de jailbreak utilisée dans l'étude est « impraticable pour les utilisateurs normaux » et nécessiterait un investissement disproportionné par rapport au simple achat du livre. OpenAI, dans l'affaire du New York Times, avait qualifié des extractions similaires de « bug rare » qu'elle s'employait à corriger. Aucun des chercheurs impliqués dans ces travaux ne croit toutefois que la mémorisation soit un phénomène éradicable : elle semble intrinsèque à la façon dont les grands modèles de langage fonctionnent.Au-delà de la reproduction verbatim, l'étude soulève une question encore plus délicate : celle de la paraphrase proche. Si un modèle produit systématiquement des textes dont la structure narrative, le vocabulaire et le rythme sont calqués sur une uvre spécifique sans la reproduire mot pour mot, à quel moment bascule-t-on dans la contrefaçon ? Le droit d'auteur protège l'expression, pas les idées  mais la frontière entre les deux est ici extrêmement ténue, et les outils juridiques actuels n'ont pas été conçus pour répondre à cette question.Cette dimension est particulièrement préoccupante pour l'écosystème de la création littéraire. Des éditeurs indépendants comme Bards and Sages ont déjà fermé leurs portes, submergés par des contenus générés par IA inondant les plateformes. Plus de 200 nouvelles en un an, générés sous 21 pseudonymes différents, vendus à 50 000 exemplaires sur Amazon : ce type de pratique documenté par Cybernews illustre comment la mémorisation massive des styles et des contenus protégés alimente une économie de l'imitation à grande échelle. Plus de la moitié des romanciers interrogés dans une étude de l'Université de Cambridge en 2025 estimaient que l'IA remplacerait entièrement leur travail.Au fond, cette affaire touche à quelque chose de plus profond que le droit : elle questionne la métaphore fondatrice de l'intelligence artificielle. Pendant des années, l'industrie a présenté ses modèles comme des entités quià la manière des humains  en intégrant des patterns, en développant une...