IdentifiantMot de passe
Loading...
Mot de passe oublié ?Je m'inscris ! (gratuit)

Vous êtes nouveau sur Developpez.com ? Créez votre compte ou connectez-vous afin de pouvoir participer !

Vous devez avoir un compte Developpez.com et être connecté pour pouvoir participer aux discussions.

Vous n'avez pas encore de compte Developpez.com ? Créez-en un en quelques instants, c'est entièrement gratuit !

Si vous disposez déjà d'un compte et qu'il est bien activé, connectez-vous à l'aide du formulaire ci-dessous.

Identifiez-vous
Identifiant
Mot de passe
Mot de passe oublié ?
Créer un compte

L'inscription est gratuite et ne vous prendra que quelques instants !

Je m'inscris !

Comment Anthropic a créé Claude avec le Projet Panama : achat de livres physiques, section des reliures, scans des pages afin d'enrichir son IA avec une matière textuelle jugée plus «noble» que le flux du web

Le , par Stéphane le calme

386PARTAGES

14  1 
Derrière les discours policés sur « l'intelligence artificielle responsable », des documents judiciaires récemment rendus publics dévoilent une réalité beaucoup plus brute : une industrie lancée dans une course effrénée pour absorber l’ensemble du patrimoine écrit mondial. Achat massif de livres papier, découpe industrielle, numérisation à grande échelle, mais aussi téléchargements de bibliothèques pirates : l’affaire dite Project Panama éclaire d’un jour cru la façon dont les grands acteurs de l’IA ont construit leurs modèles. Et pose, frontalement, la question du prix réel de l’innovation.

Au cœur du dossier se trouve Anthropic, start-up devenue en quelques années l’un des piliers de l’IA générative. Selon des documents internes révélés dans le cadre d’un contentieux judiciaire, l’entreprise a lancé début 2024 un projet tenu volontairement secret : acheter des millions de livres physiques, en sectionner les reliures, scanner chaque page, puis recycler les ouvrages. L’objectif affiché en interne était clair : enrichir les modèles d’IA, notamment Claude, avec une matière textuelle jugée plus « noble » que le flux chaotique du web.

Ce chantier titanesque, confié à des prestataires spécialisés dans la numérisation de masse, s’inspire directement de précédents célèbres dans la Silicon Valley. Anthropic a d’ailleurs recruté un ancien cadre de Google ayant participé au très controversé projet Google Books. Ici, la logique est poussée à l’extrême : le livre n’est plus un objet culturel, mais une ressource brute, transformée, ingérée, puis détruite.

L'affaire Anthropic s'inscrit dans une vague de poursuites judiciaires intentées contre des entreprises d'IA par des auteurs, des artistes, des photographes et des organes de presse. Les documents déposés dans le cadre de ces affaires montrent que les grandes entreprises technologiques se livrent à une course effrénée, parfois clandestine, pour acquérir les œuvres collectées de l'humanité.

Project Panama, ou l’industrialisation de la lecture

Selon les documents déposés, en l'espace d'un an environ, l'entreprise aurait dépensé des dizaines de millions de dollars pour acquérir et découper la reliure de millions de livres, avant d'en scanner les pages afin d'alimenter en connaissances les modèles d'IA qui sous-tendent des produits tels que son célèbre chatbot, Claude.

Les détails du projet Panama, qui n'avaient pas été divulgués auparavant, ont été révélés dans plus de 4 000 pages de documents dans le cadre d'un procès pour violation du droit d'auteur intenté par des auteurs de livres contre Anthropic, dont la valeur est estimée à 183 milliards de dollars par les investisseurs. La société a accepté de payer 1,5 milliard de dollars pour régler l'affaire en août, mais la décision prise la semaine dernière par un juge de district de lever les scellés sur une série de documents relatifs à l'affaire a révélé plus en détail la quête effrénée de livres menée par Anthropic.

Les nouveaux documents, ainsi que les dossiers antérieurs dans d'autres affaires de droits d'auteur contre des entreprises d'IA, montrent les efforts déployés par des entreprises technologiques telles qu'Anthropic, Meta, Google et OpenAI pour obtenir des quantités colossales de données afin de « former » leurs logiciels.


Pourquoi les livres valent de l’or pour les modèles d’IA

Les échanges internes cités dans les dossiers judiciaires révèlent une obsession partagée par l’ensemble du secteur : les livres seraient le secret pour apprendre à une IA à « bien écrire ». Là où Internet regorge de contenus répétitifs, mal structurés ou approximatifs, les ouvrages publiés incarnent des styles, des structures narratives et une rigueur linguistique que les ingénieurs jugent indispensables.

Cette conviction n’est pas propre à Anthropic. Chez Meta, des cadres évoquent l’accès à de vastes catalogues de livres comme une condition essentielle pour rester compétitif. Même raisonnement chez OpenAI ou Google, aujourd’hui également visés par des actions en justice similaires. Les livres sont devenus le carburant premium de l’IA générative.

Les livres étaient considérés comme un enjeu crucial par ces entreprises, comme le montrent les dossiers judiciaires. Dans un document datant de janvier 2023, l'un des cofondateurs d'Anthropic a émis l'hypothèse que l'entraînement des modèles d'IA à partir de livres pourrait leur apprendre « à bien écrire » au lieu d'imiter « le langage de mauvaise qualité utilisé sur Internet ». Un e-mail interne de Meta datant de 2024 décrivait l'accès à une mine de livres numériques comme « essentiel » pour rester compétitif face à ses rivaux dans le domaine de l'IA.

Mais les dossiers judiciaires suggèrent que les entreprises ne jugeaient pas pratique d'obtenir l'autorisation directe des éditeurs et des auteurs pour utiliser leurs œuvres. Au lieu de cela, Anthropic, Meta et d'autres entreprises ont trouvé des moyens d'acquérir des livres en vrac à l'insu des auteurs, selon les documents judiciaires, notamment en téléchargeant des copies piratées.

L’angle mort du consentement et la tentation du piratage

Le problème, c’est que négocier individuellement avec des éditeurs et des auteurs aurait pris des années, et coûté des sommes colossales. Les documents dévoilés montrent que plusieurs entreprises ont préféré des raccourcis beaucoup plus risqués : le téléchargement...
La fin de cet article est réservée aux abonnés. Soutenez le Club Developpez.com en prenant un abonnement pour que nous puissions continuer à vous proposer des publications.

Une erreur dans cette actualité ? Signalez-nous-la !

Avatar de _toma_
Membre éclairé https://www.developpez.com
Le 17/03/2026 à 8:40
Le procès pour atteinte au copyright n'est pas mené par Stallman :
Pour rappel, en juillet 2025, un juge fédéral de Californie a autorisé trois auteurs (Andrea Bartz, Charles Graeber et Kirk Wallace Johnson) à mener une action collective nationale contre la start-up Anthropic
Bien que le tribunal ait jugé l'utilisation des livres équitable, la FSF demande aux développeurs d'intelligence artificielle (IA) qui entraînent leurs modèles à l'aide d'énormes ensembles de données téléchargés sur Internet de fournir les LLM à leurs utilisateurs en toute liberté, à titre de compensation.
2  0 
Avatar de OrthodoxWindows
Membre expert https://www.developpez.com
Le 17/03/2026 à 19:25
Citation Envoyé par Access_to_folder Voir le message
Et donc si j'ai bien suivi, le livre piraté non libre de M. Stallman mais diffusé par FSF en licence libre si pas d'usage commercial, la FSF envisagerait la possibilité d'un procès faisant que vu que Anthropic a utilisé d'une licence libre, le LLM d'Anthropic doit devenir libre en tant que dommage de réparation à cette violation de droits et acceptation de fait, par usage en traitement automatisé, d'un bien en licence libre...
Ce qui est logique, car, comme vous l'avez dit vous-même, ce livre est placé en "en licence libre si pas d'usage commercial". Hors Anthropic, en l'utilisant pour un LLM commercial, viole potentiellement cette licence.
Après, le débat de fond porte, comme toujours, sur si pour un LLM, ça va être plus de l'inspiration, ou plus du plagiat. Mais la logique de la FSF se tient si l'on en reste à ce qu'elle demande (le passage des LLM d'Anthropic concernés en non-commercial)
2  0 
Avatar de _toma_
Membre éclairé https://www.developpez.com
Le 17/03/2026 à 9:00
Ha oui j'avais pas vu.
0  0 
Avatar de Access_to_folder
Nouveau Candidat au Club https://www.developpez.com
Le 18/03/2026 à 5:24
Tout à fait, surtout par leur raison militante.
Peut être que le Tribunal quant à lui jugera différemment, s'il la FSF s'engage dans la procédure, et accordera plutôt des dommages intérêts pour le préjudice subit ; les jurisprudences actuelles ne reconnaissent pas encore à l'IA un équivalent d'intelligence humaine quant à la compréhension de la licence. Une affaire intéressante à suivre (tentative de report de responsabilité d'un fait humain sur une IA ?).
0  1 
Avatar de Access_to_folder
Nouveau Candidat au Club https://www.developpez.com
Le 17/03/2026 à 9:07
Et donc si j'ai bien suivi, le livre piraté non libre de M. Stallman mais diffusé par FSF en licence libre si pas d'usage commercial, la FSF envisagerait la possibilité d'un procès faisant que vu que Anthropic a utilisé d'une licence libre, le LLM d'Anthropic doit devenir libre en tant que dommage de réparation à cette violation de droits et acceptation de fait, par usage en traitement automatisé, d'un bien en licence libre...
0  2 
Avatar de Access_to_folder
Nouveau Candidat au Club https://www.developpez.com
Le 17/03/2026 à 5:35
Il faudrait être parfois cohérent :

"Piratage logiciel : Richard Stallman affirme que partager n’est pas voler et accuse l’industrie d’avoir transformé l’entraide numérique en faute morale,"
https://www.developpez.net/forums/d2...tager-n-voler/

Violer les droits des autres n'est pas un problème sauf lorsqu'il s'agit des siens...
0  4 
Avatar de Access_to_folder
Nouveau Candidat au Club https://www.developpez.com
Le 17/03/2026 à 8:52
Citation Envoyé par _toma_ Voir le message
Le procès pour atteinte au copyright n'est pas mené par Stallman :
Non mais la revendication d'atteinte à ses droits est faite par sa fondation, la FSF, d'après l'article :

"Nous sommes une petite organisation aux ressources limitées et nous devons choisir nos combats, mais si la FSF devait participer à un procès tel que Bartz c. Anthropic et constater que nos droits d'auteur et notre licence ont été violés, nous demanderions certainement la liberté des utilisateurs à titre de compensation."
0  4