Comment Anthropic a créé Claude avec le Projet Panama : achat de livres physiques, section des reliures, scans des pages afin d'enrichir son IA avec une matière textuelle jugée plus «noble» que le flux du web

Le 28 janvier 2026 à 15:42, par Stéphane le calme

423PARTAGES

Comment Anthropic a créé Claude avec le Projet Panama : achat de livres physiques, section des reliures, scans des pages
afin d'enrichir son IA avec une matière textuelle jugée plus « noble » que le flux chaotique du web

Derrière les discours policés sur « l'intelligence artificielle responsable », des documents judiciaires récemment rendus publics dévoilent une réalité beaucoup plus brute : une industrie lancée dans une course effrénée pour absorber l’ensemble du patrimoine écrit mondial. Achat massif de livres papier, découpe industrielle, numérisation à grande échelle, mais aussi téléchargements de bibliothèques pirates : l’affaire dite Project Panama éclaire d’un jour cru la façon dont les grands acteurs de l’IA ont construit leurs modèles. Et pose, frontalement, la question du prix réel de l’innovation.

Au cœur du dossier se trouve Anthropic, start-up devenue en quelques années l’un des piliers de l’IA générative. Selon des documents internes révélés dans le cadre d’un contentieux judiciaire, l’entreprise a lancé début 2024 un projet tenu volontairement secret : acheter des millions de livres physiques, en sectionner les reliures, scanner chaque page, puis recycler les ouvrages. L’objectif affiché en interne était clair : enrichir les modèles d’IA, notamment Claude, avec une matière textuelle jugée plus « noble » que le flux chaotique du web.

Ce chantier titanesque, confié à des prestataires spécialisés dans la numérisation de masse, s’inspire directement de précédents célèbres dans la Silicon Valley. Anthropic a d’ailleurs recruté un ancien cadre de Google ayant participé au très controversé projet Google Books. Ici, la logique est poussée à l’extrême : le livre n’est plus un objet culturel, mais une ressource brute, transformée, ingérée, puis détruite.

L'affaire Anthropic s'inscrit dans une vague de poursuites judiciaires intentées contre des entreprises d'IA par des auteurs, des artistes, des photographes et des organes de presse. Les documents déposés dans le cadre de ces affaires montrent que les grandes entreprises technologiques se livrent à une course effrénée, parfois clandestine, pour acquérir les œuvres collectées de l'humanité.

Project Panama, ou l’industrialisation de la lecture

Selon les documents déposés, en l'espace d'un an environ, l'entreprise aurait dépensé des dizaines de millions de dollars pour acquérir et découper la reliure de millions de livres, avant d'en scanner les pages afin d'alimenter en connaissances les modèles d'IA qui sous-tendent des produits tels que son célèbre chatbot, Claude.

Les détails du projet Panama, qui n'avaient pas été divulgués auparavant, ont été révélés dans plus de 4 000 pages de documents dans le cadre d'un procès pour violation du droit d'auteur intenté par des auteurs de livres contre Anthropic, dont la valeur est estimée à 183 milliards de dollars par les investisseurs. La société a accepté de payer 1,5 milliard de dollars pour régler l'affaire en août, mais la décision prise la semaine dernière par un juge de district de lever les scellés sur une série de documents relatifs à l'affaire a révélé plus en détail la quête effrénée de livres menée par Anthropic.

Les nouveaux documents, ainsi que les dossiers antérieurs dans d'autres affaires de droits d'auteur contre des entreprises d'IA, montrent les efforts déployés par des entreprises technologiques telles qu'Anthropic, Meta, Google et OpenAI pour obtenir des quantités colossales de données afin de « former » leurs logiciels.

Pourquoi les livres valent de l’or pour les modèles d’IA

Les échanges internes cités dans les dossiers judiciaires révèlent une obsession partagée par l’ensemble du secteur : les livres seraient le secret pour apprendre à une IA à « bien écrire ». Là où Internet regorge de contenus répétitifs, mal structurés ou approximatifs, les ouvrages publiés incarnent des styles, des structures narratives et une rigueur linguistique que les ingénieurs jugent indispensables.

Cette conviction n’est pas propre à Anthropic. Chez Meta, des cadres évoquent l’accès à de vastes catalogues de livres comme une condition essentielle pour rester compétitif. Même raisonnement chez OpenAI ou Google, aujourd’hui également visés par des actions en justice similaires. Les livres sont devenus le carburant premium de l’IA générative.

Les livres étaient considérés comme un enjeu crucial par ces entreprises, comme le montrent les dossiers judiciaires. Dans un document datant de janvier 2023, l'un des cofondateurs d'Anthropic a émis l'hypothèse que l'entraînement des modèles d'IA à partir de livres pourrait leur apprendre « à bien écrire » au lieu d'imiter « le langage de mauvaise qualité utilisé sur Internet ». Un e-mail interne de Meta datant de 2024 décrivait l'accès à une mine de livres numériques comme « essentiel » pour rester compétitif face à ses rivaux dans le domaine de l'IA.

Mais les dossiers judiciaires suggèrent que les entreprises ne jugeaient pas pratique d'obtenir l'autorisation directe des éditeurs et des auteurs pour utiliser leurs œuvres. Au lieu de cela, Anthropic, Meta et d'autres entreprises ont trouvé des moyens d'acquérir des livres en vrac à l'insu des auteurs, selon les documents judiciaires, notamment en téléchargeant des copies piratées.

L’angle mort du consentement et la tentation du piratage

Le problème, c’est que négocier individuellement avec des éditeurs et des auteurs aurait pris des années, et coûté des sommes colossales. Les documents dévoilés montrent que plusieurs entreprises ont préféré des raccourcis beaucoup plus risqués : le téléchargement massif de bibliothèques dites « de l’ombre », comme LibGen, connues pour héberger des millions d’ouvrages piratés.

Chez Meta, des ingénieurs ont exprimé par écrit leur malaise. Certains s’inquiètent de télécharger des torrents depuis des ordinateurs professionnels, d’autres redoutent les conséquences juridiques du partage involontaire de contenus piratés. Malgré ces alertes internes, les projets avancent. Une validation « après escalade » jusqu’à la direction générale, faisant référence à Mark Zuckerberg, est même mentionnée dans un courriel interne.

Dans un document juridique récemment publié, Anthropic a révélé que le cofondateur Ben Mann avait personnellement téléchargé une grande quantité d'ouvrages de fiction et de non-fiction à partir d'une « bibliothèque fantôme » de livres et d'autres contenus enfreignant le droit d'auteur, appelée LibGen, pendant 11 jours en juin 2021. Une capture d'écran de son navigateur web incluse dans les documents montrait qu'il téléchargeait des fichiers à l'aide d'un logiciel de partage de fichiers.

Un an plus tard, Mann a salué le lancement en juillet 2022 d'un nouveau site web appelé Pirate Library Mirror, qui prétendait disposer d'une immense base de données de livres et déclarait « violer délibérément la loi sur le droit d'auteur dans la plupart des pays ». Mann a envoyé un lien vers le site à d'autres employés d'Anthropic avec le message « juste à temps !!! ».

Anthropic a déclaré dans des documents juridiques que la société n'avait jamais formé de modèle d'IA commercial générant des revenus à partir de ses données LibGen et n'avait jamais utilisé Pirate Library Mirror pour former un modèle d'IA complet.

Ed Newton-Rex, ancien cadre dans le domaine de l'IA et compositeur de musique qui dirige aujourd'hui une organisation à but non lucratif défendant les droits des créateurs, a déclaré que ces révélations soulignaient le fait que les entreprises d'IA avaient une dette plus importante envers les créateurs qu'elles ne l'avaient jusqu'à présent. « Nous avons besoin de toute urgence d'une réinitialisation de l'ensemble du secteur de l'IA, afin que les créatifs commencent à être rémunérés équitablement pour leurs contributions essentielles », a-t-il déclaré.

Google, Microsoft et OpenAI, le fabricant de ChatGPT, font également l'objet de poursuites judiciaires pour violation du droit d'auteur de la part d'auteurs de livres qui formulent des allégations similaires.

La justice tranche… partiellement

Sur le fond, plusieurs décisions récentes ont surpris observateurs et ayants droit. Des juges américains ont estimé que l’utilisation de livres pour entraîner des modèles d’IA pouvait relever du fair use, au motif que le processus serait « transformateur ». Comparaison est faite avec un enseignant qui apprend à écrire à ses élèves, sans reproduire mot pour mot les œuvres étudiées.

Mais cette tolérance a des limites. Dans le cas d’Anthropic, si la numérisation de livres achetés légalement a été jugée recevable, l’acquisition préalable de millions d’ouvrages piratés a, elle, posé problème. Résultat : un accord transactionnel à 1,5 milliard de dollars pour éviter un procès, avec une indemnisation estimée à quelques milliers de dollars par titre pour les auteurs concernés.

La plupart des poursuites judiciaires intentées contre des entreprises spécialisées dans l'IA sont toujours en cours, et James Grimmelmann, professeur de droit numérique et de l'information à Cornell Tech, a déclaré que les questions qu'elles soulèvent restent encore sans réponse sur le plan juridique. Mais dans deux décisions rendues récemment, les juges ont estimé que l'utilisation par les entreprises technologiques de livres pour entraîner des modèles d'IA sans l'autorisation de l'auteur ou de l'éditeur pouvait être légale en vertu d'une doctrine du droit d'auteur connue sous le nom de « fair use » (usage loyal).

En juin, le juge William Alsup a estimé qu'Anthropic était en droit d'utiliser des livres pour entraîner des modèles d'IA, car ceux-ci traitent le matériel de manière « transformative ». Il a comparé le processus d'entraînement de l'IA à celui des enseignants qui « apprennent aux écoliers à bien écrire ». Le même mois, le juge Vince Chhabria a estimé dans l'affaire Meta que les auteurs des livres n'avaient pas démontré que les modèles d'IA de l'entreprise pouvaient nuire aux ventes de leurs livres.

Mais les entreprises peuvent tout de même avoir des ennuis en raison de la manière dont elles ont acquis les livres. Dans le cas d'Anthropic, le projet de numérisation des livres a été jugé recevable, mais le juge a estimé que l'entreprise avait peut-être enfreint les droits d'auteur des auteurs en téléchargeant gratuitement des millions de livres piratés avant de lancer le projet Panama.

Une industrie sous tension éthique et politique

Au-delà des montants, ces révélations exposent une fracture profonde entre le discours public des entreprises d’IA et leurs pratiques internes. Les dirigeants plaident l’innovation, la transformation et le progrès collectif. Les documents judiciaires racontent plutôt une industrie « verrouillée » dans une compétition à très haute intensité, où chaque retard technologique peut coûter des milliards de valorisation.

Pour les défenseurs des créateurs, le signal est clair : l’IA s’est construite sur une dette culturelle massive, encore très imparfaitement reconnue. Pour les juristes, le droit d’auteur entre dans une zone grise où l’entraînement des machines bouscule des principes établis depuis des décennies. Et pour le secteur lui-même, Project Panama pourrait devenir un cas d’école : celui d’un virage tardif vers des méthodes plus conformes à la loi, une fois la tempête judiciaire déclenchée.

Ce qui se joue ici dépasse largement Anthropic ou Meta. C’est la question de savoir si l’intelligence artificielle du futur se développera dans un cadre contractuel et transparent, ou si elle continuera à avancer en terrain miné, en absorbant le patrimoine intellectuel mondial avant que les règles ne soient clairement posées.

Source : documents judiciaire (1, 2, 3, 4, 5, 6), Anthropic

Et vous ?

Cela vous semble-t-il crédible ? Êtes-vous surpris ou pas du tout ?

Peut-on encore parler « d'innovation responsable » quand des modèles d’IA ont été entraînés à partir de livres piratés téléchargés en masse, en toute connaissance des risques juridiques ?

Le concept de fair use est-il réellement adapté à des systèmes industriels capables d’absorber et de réexploiter des millions d’œuvres, ou sert-il aujourd’hui de paravent légal à une prédation culturelle à grande échelle ?

Les auteurs et éditeurs doivent-ils être rémunérés a posteriori, ou faut-il imposer un consentement explicite et contractuel avant toute utilisation de leurs œuvres par des IA commerciales ?

Les entreprises d’IA auraient-elles pu exister sans l’accès massif et non négocié au patrimoine écrit mondial, ou cette dépendance révèle-t-elle une fragilité structurelle de leurs modèles économiques ?

En validant l’usage transformateur des œuvres protégées, la justice ne crée-t-elle pas un précédent dangereux pour d’autres industries fondées sur l’extraction de contenus culturels ?

Les utilisateurs finaux d’IA générative doivent-ils être informés de l’origine exacte des données ayant servi à entraîner les modèles qu’ils utilisent au quotidien ?

Vous avez lu gratuitement 16 030 articles depuis plus d'un an.
Soutenez le club developpez.com en souscrivant un abonnement pour que nous puissions continuer à vous proposer des publications.

Une erreur dans cette actualité ? Signalez-nous-la !

Votre nom : Votre e-mail :

Décrivez l'erreur que vous souhaitez porter à notre connaissance :