L'action en justice contre Anthropic révèle la façon dont l'entreprise a détruit des millions de livres imprimés dans le seul but de former son IA Claude. Anthropic a retiré la reliure des livres, les a numérisés en fichiers numériques et a jeté les originaux. Cette numérisation destructrice a joué en sa faveur : le juge a estimé que cela relève de l'usage loyal, car les livres achetés ont été transformés, utilisés en interne, sans création de nouveaux exemplaires. Mais l'affaire se complique : Anthropic a aussi téléchargé plus de 7 millions de livres numériques piratés. Pour ces copies pirates, Anthropic doit faire face à un procès pour des dommages-intérêts. Le juge William Alsup, de la cour fédérale du district nord de Californie, a rendu un jugement sommaire en faveur d'Anthropic, estimant que l'utilisation des livres protégés par le droit d'auteur à des fins d'entraînement et le passage du format papier au format numérique constituent tous deux un « usage loyal ». Il s'agit d'une décision inédite en faveur de l'industrie de l'IA, mais elle est surtout limitée aux livres imprimés qu'Anthropic a achetés et numérisés.
Une révélation surprenante se cache dans les détails de la décision juridique de 32 pages. Elle explique comment, en février 2024, Anthropic a embauché Tom Turvey, l'ancien responsable des partenariats pour le projet de numérisation des livres de Google Books, et l'a chargé d'obtenir « tous les livres du monde ».
Selon le récit du juge William Alsup, Anthropic a dépensé plusieurs millions de dollars pour cette opération d'achat et de numérisation, achetant souvent des livres d'occasion en gros. Ensuite, Anthropic retirait les livres de leurs reliures, coupait les pages aux dimensions voulues, les numérisait sous forme de piles de pages pour en faire des fichiers PDF contenant du texte lisible par machine, y compris les couvertures, puis jetait tous les originaux imprimés.
Anthropic a détruit définitivement les livres achetés et n'a pas l'intention de rendre publiques les copies numériques ainsi obtenues. En fin de compte, le juge William Alsup a estimé que cette opération de numérisation destructive relève de l'usage loyal, mais uniquement parce qu'Anthropic avait d'abord acheté légalement les livres, détruit chaque copie imprimée après numérisation et conservé les fichiers numériques en interne au lieu de les distribuer.
Critiques sur l'opération de numérisation destructive de livres
La pratique d’Anthropic (acheter des livres d’occasion, les découper, puis les jeter après numérisation) a suscité de vives critiques, même si la justice l’a jugée légale. Plusieurs voix, notamment dans le monde de l’édition, des bibliothèques et de la préservation du patrimoine, estiment que cette méthode constitue un véritable gaspillage culturel. Ils dénoncent notamment la disparition d’exemplaires imprimés parfois rares ou très difficiles à retrouver.
Enfin, des éditeurs et des défenseurs du livre patrimonial affirment que cette approche destructrice est symbolique d’une vision purement extractive de la culture, où le livre n’est réduit qu’à une matière première pour entraîner une IA, sans respect pour sa valeur patrimoniale ou artistique.
Si la « numérisation destructive » est une pratique courante dans certaines opérations de numérisation de livres, l'approche d'Anthropic était quelque peu inhabituelle en raison de son échelle massive documentée. L'entreprise avait d'autres alternatives. Par exemple, le projet Google Books a largement utilisé un procédé breveté de caméra non destructive pour numériser des millions de livres empruntés à des bibliothèques et restitués par la suite.
En ce qui concerne Anthropic, la rapidité et le coût inférieur du processus de numérisation destructive semblent avoir pris le pas sur la nécessité de préserver les livres physiques eux-mêmes, ce qui laisse entrevoir le besoin d'une solution simple et bon marché dans un secteur hautement concurrentiel.
L'industrie de l'IA ne peut pas se passer des œuvres protégées
Ces dernières années, les capacités des chatbots d'IA, comme ChatGPT d'OpenAI et Claude d'Anthropic, se sont nettement améliorées ; ils s'appuient sur de grands modèles de langage (LLM) pour produire du contenu pour les utilisateurs. Mais le processus d'entraînement est largement controversé, certains éditeurs accusant l'industrie d'utiliser des œuvres protégées par le droit d'auteur sans autorisation, et un certain nombre d'affaires juridiques sont en cours.
En janvier 2024, OpenAI affirmait : « étant donné que le droit d'auteur couvre aujourd'hui pratiquement toutes les formes d'expression humaine, il serait...
La fin de cet article est réservée aux abonnés. Soutenez le Club Developpez.com en prenant un abonnement pour que nous puissions continuer à vous proposer des publications.

