Anthropic a acheté, découpé et numérisé des millions de livres physiques avant de détruire les originaux, dans le seul but d'entraîner son IA Claude,

Il a également téléchargé 7 millions de livres piratés

Le 28 juin 2025 à 19:49, par Mathis Lucas

5PARTAGES

Anthropic a acheté, découpé et numérisé des millions de livres physiques avant de détruire les originaux, dans le seul but d'entraîner son IA Claude
il a également téléchargé 7 millions de livres piratés

L'action en justice contre Anthropic révèle la façon dont l'entreprise a détruit des millions de livres imprimés dans le seul but de former son IA Claude. Anthropic a retiré la reliure des livres, les a numérisés en fichiers numériques et a jeté les originaux. Cette numérisation destructrice a joué en sa faveur : le juge a estimé que cela relève de l'usage loyal, car les livres achetés ont été transformés, utilisés en interne, sans création de nouveaux exemplaires. Mais l'affaire se complique : Anthropic a aussi téléchargé plus de 7 millions de livres numériques piratés. Pour ces copies pirates, Anthropic doit faire face à un procès pour des dommages-intérêts.

Le juge William Alsup, de la cour fédérale du district nord de Californie, a rendu un jugement sommaire en faveur d'Anthropic, estimant que l'utilisation des livres protégés par le droit d'auteur à des fins d'entraînement et le passage du format papier au format numérique constituent tous deux un « usage loyal ». Il s'agit d'une décision inédite en faveur de l'industrie de l'IA, mais elle est surtout limitée aux livres imprimés qu'Anthropic a achetés et numérisés.

Une révélation surprenante se cache dans les détails de la décision juridique de 32 pages. Elle explique comment, en février 2024, Anthropic a embauché Tom Turvey, l'ancien responsable des partenariats pour le projet de numérisation des livres de Google Books, et l'a chargé d'obtenir « tous les livres du monde ».

Selon le récit du juge William Alsup, Anthropic a dépensé plusieurs millions de dollars pour cette opération d'achat et de numérisation, achetant souvent des livres d'occasion en gros. Ensuite, Anthropic retirait les livres de leurs reliures, coupait les pages aux dimensions voulues, les numérisait sous forme de piles de pages pour en faire des fichiers PDF contenant du texte lisible par machine, y compris les couvertures, puis jetait tous les originaux imprimés.

Anthropic a détruit définitivement les livres achetés et n'a pas l'intention de rendre publiques les copies numériques ainsi obtenues. En fin de compte, le juge William Alsup a estimé que cette opération de numérisation destructive relève de l'usage loyal, mais uniquement parce qu'Anthropic avait d'abord acheté légalement les livres, détruit chaque copie imprimée après numérisation et conservé les fichiers numériques en interne au lieu de les distribuer.

Critiques sur l'opération de numérisation destructive de livres

La pratique d’Anthropic (acheter des livres d’occasion, les découper, puis les jeter après numérisation) a suscité de vives critiques, même si la justice l’a jugée légale. Plusieurs voix, notamment dans le monde de l’édition, des bibliothèques et de la préservation du patrimoine, estiment que cette méthode constitue un véritable gaspillage culturel. Ils dénoncent notamment la disparition d’exemplaires imprimés parfois rares ou très difficiles à retrouver.

Enfin, des éditeurs et des défenseurs du livre patrimonial affirment que cette approche destructrice est symbolique d’une vision purement extractive de la culture, où le livre n’est réduit qu’à une matière première pour entraîner une IA, sans respect pour sa valeur patrimoniale ou artistique.

Si la « numérisation destructive » est une pratique courante dans certaines opérations de numérisation de livres, l'approche d'Anthropic était quelque peu inhabituelle en raison de son échelle massive documentée. L'entreprise avait d'autres alternatives. Par exemple, le projet Google Books a largement utilisé un procédé breveté de caméra non destructive pour numériser des millions de livres empruntés à des bibliothèques et restitués par la suite.

En ce qui concerne Anthropic, la rapidité et le coût inférieur du processus de numérisation destructive semblent avoir pris le pas sur la nécessité de préserver les livres physiques eux-mêmes, ce qui laisse entrevoir le besoin d'une solution simple et bon marché dans un secteur hautement concurrentiel.

L'industrie de l'IA ne peut pas se passer des œuvres protégées

Ces dernières années, les capacités des chatbots d'IA, comme ChatGPT d'OpenAI et Claude d'Anthropic, se sont nettement améliorées ; ils s'appuient sur de grands modèles de langage (LLM) pour produire du contenu pour les utilisateurs. Mais le processus d'entraînement est largement controversé, certains éditeurs accusant l'industrie d'utiliser des œuvres protégées par le droit d'auteur sans autorisation, et un certain nombre d'affaires juridiques sont en cours.

En janvier 2024, OpenAI affirmait : « étant donné que le droit d'auteur couvre aujourd'hui pratiquement toutes les formes d'expression humaine, il serait impossible d’entraîner les meilleurs modèles d'IA d'aujourd'hui sans utiliser des documents protégés par le droit d'auteur ». OpenAI reconnaît donc ouvertement qu'il utilise des contenus protégés par le droit d'auteur pour créer ses modèles d'IA. L'entreprise n'a toutefois pas encore été condamnée.

Selon les entreprises du secteur, l'IA disparaîtrait du jour au lendemain si elle était obligée se conformer à la législation sur le droit d'auteur. La victoire juridique partielle remportée par Anthropic lui permet désormais de former des modèles d'IA à partir de livres protégés par le droit d'auteur sans en informer les éditeurs ou les auteurs originaux, ce qui pourrait lever l'un des principaux obstacles auxquels est confronté le secteur de l'IA générative.

Le juge William Alsup a comparé la numérisation destructive des livres à la « conservation de l'espace » par la conversion de format et l'a trouvé transformateur. Autrement dit, il a vu cette transformation comme une manière d’archiver ou de réorganiser l’information, pas comme un simple acte de copie.

Si Anthropic s'en était tenu à cette approche dès le départ, il aurait peut-être obtenu le premier cas légalement sanctionné d'utilisation équitable d'œuvres protégées par des droits d'auteurs dans le cadre de l'entraînement de l'IA. Au lieu de cela, l'entreprise s'est livrée à un piratage massif de livres numériques, ce qui a affaibli sa position. Anthropic a téléchargé plus de sept millions de livres piratés et doit faire face à un procès pour dommages-intérêts.

Anthropic reste en difficulté pour avoir piraté des millions de livres

Malgré sa victoire, Anthropic doit toujours faire face à un procès pour piratage, pour lequel le juge William Alsup a estimé qu'il ne s'agissait pas d'une utilisation équitable. Anthropic est accusé d'avoir téléchargé jusqu'à sept millions de livres piratés afin de constituer une bibliothèque de recherche où les copies seraient conservées « à jamais », qu'elles aient été utilisées ou non dans le cadre de l'entraînement de ses grands modèles de langage.

Ayant apparemment compris que le piratage pouvait entraîner des poursuites judiciaires, Anthropic a ensuite tenté de remplacer les livres piratés par des copies achetées légalement. Toutefois, l’entreprise a également soutenu que même la copie initiale de ces livres piratés constituait une étape « intermédiaire » nécessaire pour permettre un usage transformateur dans l’entraînement de l’IA. Un argument largement controversé que le tribunal a rejeté.

Et, argument peut-être le moins convaincant, Anthropic a également fait valoir que, puisqu'il aurait pu emprunter les livres qu'il a initialement volés (piratés), le vol en lui-même ne devrait pas « court-circuiter » l'analyse de l'usage loyal. Mais le juge William Alsup n'a pas été convaincu par ce dernier non plus.

Il a souligné que la copie de livres à partir d'un site pirate constitue une violation du droit d'auteur. Il a rejeté l'hypothèse d'Anthropic selon laquelle l'utilisation des copies pour une bibliothèque peut être excusée au titre de l'usage loyal parce que certaines seront finalement utilisées pour former des LLM », et il a émis des doutes quant à la possibilité pour les autres procès liés à l'IA et portant sur le piratage d'échapper au paiement de dommages-intérêts.

La décision trace désormais un cadre pour l'entraînement de l'IA

Les auteurs pourraient intenter de nouvelles poursuites s'ils trouvaient des preuves de contrefaçon dans les productions de Claude. « Les auteurs concèdent que la formation des LLM n'a pas donné lieu à la fourniture au public de copies exactes ni même de contrefaçons de leurs œuvres. Si tel n'était pas le cas, l'affaire serait différente. Les auteurs restent libres d'intenter une action en justice à l'avenir si de tels faits venaient à se produire », a écrit le juge.

Il s'agit d'une décision mitigée sur l'usage loyal, qui constitue une perte tant pour les titulaires de droits d'auteur que pour Anthropic, mais qui pourrait être une victoire pour les plateformes d'IA en général. Si elle est confirmée, cette décision signifierait que les entreprises d'IA utilisant du matériel protégé par le droit d'auteur pour former leurs modèles pourraient être autorisées à le faire à l'avenir. La seule exception à cette règle serait si le matériel a été piraté.

Il est encore trop tôt pour dire quel montant le juge William Alsup jugera approprié de proposer au jury à titre de dommages-intérêts, mais la quantité de matériel protégé par le droit d'auteur utilisé par Anthropic sous forme piratée était énorme, de sorte que les dommages-intérêts pourraient être très importants.

Conclusion

L'IA générative a déjà fait l'objet de vives critiques en raison de ses problèmes bien connus de fiabilité, de sa consommation énergétique massive et de l'utilisation non autorisée de contenus protégés par le droit d'auteur. L'affaire judiciaire contre Anthropic révèle que l'entraînement de ces modèles d'IA a également impliqué la destruction à grande échelle de livres physiques. Bien que la méthode soit controversée, elle a été jugée légale par le tribunal.

Selon le juge William Alsup, les entreprises d'IA n'ont pas besoin de l'autorisation des auteurs pour entraîner leurs grands modèles de langage sur des livres achetés légalement. Il s'agit d'un usage loyal. Ce jugement fournit un référentiel pragmatique pour l’industrie de l'IA : « s’assurer que les données utilisées proviennent de sources légales et légitimes avant l’entraînement. Tout recours à du contenu piraté expose à un risque juridique majeur ».

Source : la décision du juge de district William Alsup (PDF)

Et vous ?

Quel est votre avis sur le sujet ?

Anthropic a détruit des millions de livres physiques dans le processus d'entraînement de ses modèles d'IA. Qu'en pensez-vous ?

Le juge William Alsup affirme que l'entraînement de l'IA sur des livres achetés légalement sans l'autorisation des auteurs constitue un usage loyal. Qu'en pensez-vous ?

Quels impacts cette décision pourrait-elle avoir sur l'ensemble de l'industrie de l'IA ?

Cette décision répond-elle aux préoccupations des détenteurs de droits d'auteur ?

Voir aussi

Anthropic, le développeur de Claude AI, poursuivi pour avoir entraîné son chatbot sur des copies pirates de livres protégés par le droit d'auteur

Les entreprises d'IA affirment qu'elles ne peuvent pas respecter les droits d'auteur mais ces chercheurs ont essayé, démontrant que former des modèles d'IA puissants sans enfreindre la loi, c'est possible

OpenAI déclare la course à l'IA « terminée » si l'entraînement sur des œuvres protégées par le droit d'auteur n'est pas considéré comme une utilisation équitable, ajoutant que les États-Unis seraient perdants

Vous avez lu gratuitement 786 articles depuis plus d'un an.
Soutenez le club developpez.com en souscrivant un abonnement pour que nous puissions continuer à vous proposer des publications.

Une erreur dans cette actualité ? Signalez-nous-la !

Votre nom : Votre e-mail :

Décrivez l'erreur que vous souhaitez porter à notre connaissance :

Identifiez-vous

Créer un compte

Anthropic a acheté, découpé et numérisé des millions de livres physiques avant de détruire les originaux, dans le seul but d'entraîner son IA Claude,

Il a également téléchargé 7 millions de livres piratés

Identifiant
Mot de passe

Mot de passe oublié ?

Identifiez-vous

Créer un compte

Anthropic a acheté, découpé et numérisé des millions de livres physiques avant de détruire les originaux, dans le seul but d'entraîner son IA Claude, Il a également téléchargé 7 millions de livres piratés

Anthropic a acheté, découpé et numérisé des millions de livres physiques avant de détruire les originaux, dans le seul but d'entraîner son IA Claude,

Il a également téléchargé 7 millions de livres piratés