Derrière les discours policés sur « l'intelligence artificielle responsable », des documents judiciaires récemment rendus publics dévoilent une réalité beaucoup plus brute : une industrie lancée dans une course effrénée pour absorber l’ensemble du patrimoine écrit mondial. Achat massif de livres papier, découpe industrielle, numérisation à grande échelle, mais aussi téléchargements de bibliothèques pirates : l’affaire dite Project Panama éclaire d’un jour cru la façon dont les grands acteurs de l’IA ont construit leurs modèles. Et pose, frontalement, la question du prix réel de l’innovation.Au cœur du dossier se trouve Anthropic, start-up devenue en quelques années l’un des piliers de l’IA générative. Selon des documents internes révélés dans le cadre d’un contentieux judiciaire, l’entreprise a lancé début 2024 un projet tenu volontairement secret : acheter des millions de livres physiques, en sectionner les reliures, scanner chaque page, puis recycler les ouvrages. L’objectif affiché en interne était clair : enrichir les modèles d’IA, notamment Claude, avec une matière textuelle jugée plus « noble » que le flux chaotique du web.
Ce chantier titanesque, confié à des prestataires spécialisés dans la numérisation de masse, s’inspire directement de précédents célèbres dans la Silicon Valley. Anthropic a d’ailleurs recruté un ancien cadre de Google ayant participé au très controversé projet Google Books. Ici, la logique est poussée à l’extrême : le livre n’est plus un objet culturel, mais une ressource brute, transformée, ingérée, puis détruite.
L'affaire Anthropic s'inscrit dans une vague de poursuites judiciaires intentées contre des entreprises d'IA par des auteurs, des artistes, des photographes et des organes de presse. Les documents déposés dans le cadre de ces affaires montrent que les grandes entreprises technologiques se livrent à une course effrénée, parfois clandestine, pour acquérir les œuvres collectées de l'humanité.
Project Panama, ou l’industrialisation de la lecture
Selon les documents déposés, en l'espace d'un an environ, l'entreprise aurait dépensé des dizaines de millions de dollars pour acquérir et découper la reliure de millions de livres, avant d'en scanner les pages afin d'alimenter en connaissances les modèles d'IA qui sous-tendent des produits tels que son célèbre chatbot, Claude.
Les détails du projet Panama, qui n'avaient pas été divulgués auparavant, ont été révélés dans plus de 4 000 pages de documents dans le cadre d'un procès pour violation du droit d'auteur intenté par des auteurs de livres contre Anthropic, dont la valeur est estimée à 183 milliards de dollars par les investisseurs. La société a accepté de payer 1,5 milliard de dollars pour régler l'affaire en août, mais la décision prise la semaine dernière par un juge de district de lever les scellés sur une série de documents relatifs à l'affaire a révélé plus en détail la quête effrénée de livres menée par Anthropic.
Les nouveaux documents, ainsi que les dossiers antérieurs dans d'autres affaires de droits d'auteur contre des entreprises d'IA, montrent les efforts déployés par des entreprises technologiques telles qu'Anthropic, Meta, Google et OpenAI pour obtenir des quantités colossales de données afin de « former » leurs logiciels.
Pourquoi les livres valent de l’or pour les modèles d’IA
Les échanges internes cités dans les dossiers judiciaires révèlent une obsession partagée par l’ensemble du secteur : les livres seraient le secret pour apprendre à une IA à « bien écrire ». Là où Internet regorge de contenus répétitifs, mal structurés ou approximatifs, les ouvrages publiés incarnent des styles, des structures narratives et une rigueur linguistique que les ingénieurs jugent indispensables.
Cette conviction n’est pas propre à Anthropic. Chez Meta, des cadres évoquent l’accès à de vastes catalogues de livres comme une condition essentielle pour rester compétitif. Même raisonnement chez OpenAI ou Google, aujourd’hui également visés par des actions en justice similaires. Les livres sont devenus le carburant premium de l’IA générative.
Les livres étaient considérés comme un enjeu crucial par ces entreprises, comme le montrent les dossiers judiciaires. Dans un document datant de janvier 2023, l'un des cofondateurs d'Anthropic a émis l'hypothèse que l'entraînement des modèles d'IA à partir de livres pourrait leur apprendre « à bien écrire » au lieu d'imiter « le langage de mauvaise qualité utilisé sur Internet ». Un e-mail interne de Meta datant de 2024 décrivait l'accès à une mine de livres numériques comme « essentiel » pour rester compétitif face à ses rivaux dans le domaine de l'IA.
Mais les dossiers judiciaires suggèrent que les entreprises ne jugeaient pas pratique d'obtenir l'autorisation directe des éditeurs et des auteurs pour utiliser leurs œuvres. Au lieu de cela, Anthropic, Meta et d'autres entreprises ont trouvé des moyens d'acquérir des livres en vrac à l'insu des auteurs, selon les documents judiciaires, notamment en téléchargeant des copies piratées.
L’angle mort du consentement et la tentation du piratage
Le problème, c’est que négocier individuellement avec des éditeurs et des auteurs aurait pris des années, et coûté des sommes colossales. Les documents dévoilés montrent que plusieurs entreprises ont préféré des raccourcis beaucoup plus risqués : le téléchargement...
La fin de cet article est réservée aux abonnés. Soutenez le Club Developpez.com en prenant un abonnement pour que nous puissions continuer à vous proposer des publications.
