Derrière les discours policés sur « l'intelligence artificielle responsable », des documents judiciaires récemment rendus publics dévoilent une réalité beaucoup plus brute : une industrie lancée dans une course effrénée pour absorber l’ensemble du patrimoine écrit mondial. Achat massif de livres papier, découpe industrielle, numérisation à grande échelle, mais aussi téléchargements de bibliothèques pirates : l’affaire dite Project Panama éclaire d’un jour cru la façon dont les grands acteurs de l’IA ont construit leurs modèles. Et pose, frontalement, la question du prix réel de l’innovation.Au cœur du dossier se trouve Anthropic, start-up devenue en quelques années l’un des piliers de l’IA générative. Selon des documents internes révélés dans le cadre d’un contentieux judiciaire, l’entreprise a lancé début 2024 un projet tenu volontairement secret : acheter des millions de livres physiques, en sectionner les reliures, scanner chaque page, puis recycler les ouvrages. L’objectif affiché en interne était clair : enrichir les modèles d’IA, notamment Claude, avec une matière textuelle jugée plus « noble » que le flux chaotique du web.
Ce chantier titanesque, confié à des prestataires spécialisés dans la numérisation de masse, s’inspire directement de précédents célèbres dans la Silicon Valley. Anthropic a d’ailleurs recruté un ancien cadre de Google ayant participé au très controversé projet Google Books. Ici, la logique est poussée à l’extrême : le livre n’est plus un objet culturel, mais une ressource brute, transformée, ingérée, puis détruite.
L'affaire Anthropic s'inscrit dans une vague de poursuites judiciaires intentées contre des entreprises d'IA par des auteurs, des artistes, des photographes et des organes de presse. Les documents déposés dans le cadre de ces affaires montrent que les grandes entreprises technologiques se livrent à une course effrénée, parfois clandestine, pour acquérir les œuvres collectées de l'humanité.
Project Panama, ou l’industrialisation de la lecture
Selon les documents déposés, en l'espace d'un an environ, l'entreprise aurait dépensé des dizaines de millions de dollars pour acquérir et découper la reliure de millions de livres, avant d'en scanner les pages afin d'alimenter en connaissances les modèles d'IA qui sous-tendent des produits tels que son célèbre chatbot, Claude.
Les détails du projet Panama, qui n'avaient pas été divulgués auparavant, ont été révélés dans plus de 4 000 pages de documents dans le cadre d'un procès pour violation du droit d'auteur intenté par des auteurs de livres contre Anthropic, dont la valeur est estimée à 183 milliards de dollars par les investisseurs. La société a accepté de payer 1,5 milliard de dollars pour régler l'affaire en août, mais la décision prise la semaine dernière par un juge de district de lever les scellés sur une série de documents relatifs à l'affaire a révélé plus en détail la quête effrénée de livres menée par Anthropic.
Les nouveaux documents, ainsi que les dossiers antérieurs dans d'autres affaires de droits d'auteur contre des entreprises d'IA, montrent les efforts déployés par des entreprises technologiques telles qu'Anthropic, Meta, Google et OpenAI pour obtenir des quantités colossales de données afin de « former » leurs logiciels.
Pourquoi les livres valent de l’or pour les modèles d’IA
Les échanges internes cités dans les dossiers judiciaires révèlent une obsession partagée par l’ensemble du secteur : les livres seraient le secret pour apprendre à une IA à « bien écrire ». Là où Internet regorge de contenus répétitifs, mal structurés ou approximatifs, les ouvrages publiés incarnent des styles, des structures narratives et une rigueur linguistique que les ingénieurs jugent indispensables.
Cette conviction n’est pas propre à Anthropic. Chez Meta, des cadres évoquent l’accès à de vastes catalogues de livres comme une condition essentielle pour rester compétitif. Même raisonnement chez OpenAI ou Google, aujourd’hui également visés par des actions en justice similaires. Les livres sont devenus le carburant premium de l’IA générative.
Les livres étaient considérés comme un enjeu crucial par ces entreprises, comme le montrent les dossiers judiciaires. Dans un document datant de janvier 2023, l'un des cofondateurs d'Anthropic a émis l'hypothèse que l'entraînement des modèles d'IA à partir de livres pourrait leur apprendre « à bien écrire » au lieu d'imiter « le langage de mauvaise qualité utilisé sur Internet ». Un e-mail interne de Meta datant de 2024 décrivait l'accès à une mine de livres numériques comme « essentiel » pour rester compétitif face à ses rivaux dans le domaine de l'IA.
Mais les dossiers judiciaires suggèrent que les entreprises ne jugeaient pas pratique d'obtenir l'autorisation directe des éditeurs et des auteurs pour utiliser leurs œuvres. Au lieu de cela, Anthropic, Meta et d'autres entreprises ont trouvé des moyens d'acquérir des livres en vrac à l'insu des auteurs, selon les documents judiciaires, notamment en téléchargeant des copies piratées.
L’angle mort du consentement et la tentation du piratage
Le problème, c’est que négocier individuellement avec des éditeurs et des auteurs aurait pris des années, et coûté des sommes colossales. Les documents dévoilés montrent que plusieurs entreprises ont préféré des raccourcis beaucoup plus risqués : le téléchargement massif de bibliothèques dites « de l’ombre », comme LibGen, connues pour héberger des millions d’ouvrages piratés.
Chez Meta, des ingénieurs ont exprimé par écrit leur malaise. Certains s’inquiètent de télécharger des torrents depuis des ordinateurs professionnels, d’autres redoutent les conséquences juridiques du partage involontaire de contenus piratés. Malgré ces alertes internes, les projets avancent. Une validation « après escalade » jusqu’à la direction générale, faisant référence à Mark Zuckerberg, est même mentionnée dans un courriel interne.
Dans un document juridique récemment publié, Anthropic a révélé que le cofondateur Ben Mann avait personnellement téléchargé une grande quantité d'ouvrages de fiction et de non-fiction à partir d'une « bibliothèque fantôme » de livres et d'autres contenus enfreignant le droit d'auteur, appelée LibGen, pendant 11 jours en juin 2021. Une capture d'écran de son navigateur web incluse dans les documents montrait qu'il téléchargeait des fichiers à l'aide d'un logiciel de partage de fichiers.
Un an plus tard, Mann a salué le lancement en juillet 2022 d'un nouveau site web appelé Pirate Library Mirror, qui prétendait disposer d'une immense base de données de livres et déclarait « violer délibérément la loi sur le droit d'auteur dans la plupart des pays ». Mann a envoyé un lien vers le site à d'autres employés d'Anthropic avec le message « juste à temps !!! ».
Anthropic a déclaré dans des documents juridiques que la société n'avait jamais formé de modèle d'IA commercial générant des revenus à partir de ses données LibGen et n'avait jamais utilisé Pirate Library Mirror pour former un modèle d'IA complet.
Ed Newton-Rex, ancien cadre dans le domaine de l'IA et compositeur de musique qui dirige aujourd'hui une organisation à but non lucratif défendant les droits des créateurs, a déclaré que ces révélations soulignaient le fait que les entreprises d'IA avaient une dette plus importante envers les créateurs qu'elles ne l'avaient jusqu'à présent. « Nous avons besoin de toute urgence d'une réinitialisation de l'ensemble du secteur de l'IA, afin que les créatifs commencent à être rémunérés équitablement pour leurs contributions essentielles », a-t-il déclaré.
Google, Microsoft et OpenAI, le fabricant de ChatGPT, font également l'objet de poursuites judiciaires pour violation du droit d'auteur de la part d'auteurs de livres qui formulent des allégations similaires.
La justice tranche… partiellement
Sur le fond, plusieurs décisions récentes ont surpris observateurs et ayants droit. Des juges américains ont estimé que l’utilisation de livres pour entraîner des modèles d’IA pouvait relever du fair use, au motif que le processus serait « transformateur ». Comparaison est faite avec un enseignant qui apprend à écrire à ses élèves, sans reproduire mot pour mot les œuvres étudiées.
Mais cette tolérance a des limites. Dans le cas d’Anthropic, si la numérisation de livres achetés légalement a été jugée recevable, l’acquisition préalable de millions d’ouvrages piratés a, elle, posé problème. Résultat : un accord transactionnel à 1,5 milliard de dollars pour éviter un procès, avec une indemnisation estimée à quelques milliers de dollars par titre pour les auteurs concernés.
La plupart des poursuites judiciaires intentées contre des entreprises spécialisées dans l'IA sont toujours en cours, et James Grimmelmann, professeur de droit numérique et de l'information à Cornell Tech, a déclaré que les questions qu'elles soulèvent restent encore sans réponse sur le plan juridique. Mais dans deux décisions rendues récemment, les juges ont estimé que l'utilisation par les entreprises technologiques de livres pour entraîner des modèles d'IA sans l'autorisation de l'auteur ou de l'éditeur pouvait être légale en vertu d'une doctrine du droit d'auteur connue sous le nom de « fair use » (usage loyal).
En juin, le juge William Alsup a estimé qu'Anthropic était en droit d'utiliser des livres pour entraîner des modèles d'IA, car ceux-ci traitent le...
La fin de cet article est réservée aux abonnés. Soutenez le Club Developpez.com en prenant un abonnement pour que nous puissions continuer à vous proposer des publications.