Les entreprises d'IA affirment qu'elles ne peuvent pas respecter les droits d'auteur mais ces chercheurs ont essayé

Démontrant que former des modèles d'IA puissants sans enfreindre la loi, c'est possible

Le 8 juin 2025 à 22:01, par Stéphane le calme

218PARTAGES

Les entreprises spécialisées dans l'IA affirment qu'elles ne peuvent pas respecter les droits d'auteur mais ces chercheurs ont essayé,
leur expérience inédite démontre que former des modèles d’IA puissants sans enfreindre la loi, c’est possible

Au cœur d’un débat brûlant entre innovation technologique et respect des droits de propriété intellectuelle, nombre d’entreprises d’intelligence artificielle (IA) avancent que « le respect du droit d’auteur est impossible » dans leurs processus de formation. Pourtant, une équipe de chercheurs a relevé le défi... et semble avoir prouvé le contraire.

Contexte

Un collectif de plus de vingt chercheurs, piloté par l’association à but non lucratif EleutherAI (MIT, CMU, University of Toronto), a constitué un jeu de données de 8 To exclusivement issu de contenus sous licence ouverte ou appartenant au domaine public. À partir de ce corpus, ils ont entraîné Comma v0.1, un modèle de 7 milliards de paramètres, dont les performances sont comparables à celles de LLaMA 2‑7B de Meta, un modèle formé sur des données potentiellement protégées.

Contrairement aux gigantesques jeux de données non filtrés utilisés par les grandes entreprises d’IA, cette initiative a misé sur un protocole stringent :

Collecte uniquement sous licences libres ou domaine public ;
Annotation manuelle de chaque donnée pour valider les licences, indispensable face aux défis d’automatisation.

Le résultat ? Un modèle performant, mais dont la constitution reste coûteuse – tant en temps qu’en ressources.

Ce projet intervient dans un contexte législatif agité :

Aux États-Unis et au Royaume-Uni, des recours judiciaires et des propositions de lois (comme le Generative AI Copyright Disclosure Act) visent à encadrer l’usage des œuvres protégées.
En Europe, la réglementation exige désormais la transparence des jeux de données : les entreprises doivent publier un résumé détaillé des contenus utilisés, les titulaires pouvant s’y opposer (opt‑out).

OpenAI déclare la course à l'IA « terminée » s'il n'est pas possible d'entraîner les LLM sur des œuvres protégées

Ces dernières années, les capacités des chatbots d'IA, comme ChatGPT d'OpenAI, se sont considérablement améliorées ; ils s'appuient sur de grands modèles de langage (LLM) pour produire du contenu pour les utilisateurs. Mais le processus de formation est largement controversé, certains éditeurs accusant OpenAI d'utiliser des œuvres protégées par le droit d'auteur sans autorisation, et un certain nombre d'affaires juridiques sont en cours.

Défendant ses pratiques commerciales dans un procès, OpenAI a déclaré : « les modèles apprennent, comme nous le faisons tous, de ce qui a été fait auparavant. La défense de l'usage équitable existe précisément pour cette raison : encourager et permettre le développement de nouvelles idées qui s'appuient sur des idées antérieures ». Cette défense d'OpenAI est conforme aux précédentes déclarations de l'entreprise sur la formation de ses modèles.

En janvier 2024, OpenAI affirmait : « étant donné que le droit d'auteur couvre aujourd'hui pratiquement toutes les formes d'expression humaine, il serait impossible d’entraîner les meilleurs modèles d'IA d'aujourd'hui sans utiliser des documents protégés par le droit d'auteur ». OpenAI reconnaît donc ouvertement qu'il utilise des contenus protégés par le droit d'auteur pour créer ses modèles d'IA. L'entreprise n'a toutefois pas encore été condamnée.

Même son de cloche pour Nick Clegg, un homme politique britannique. Il a été vice-premier ministre du Royaume-Uni entre 2010 et 2015, puis responsable des affaires internationales et de la communication de Meta (anciennement Facebook) d'octobre 2018 à janvier 2025. Fervent défenseur des efforts de Meta en matière d'IA, il est revenu sur le débat sur la protection des droits d'auteur lors du festival de Charleston, dans l'East Sussex, un comté du sud-est de l'Angleterre.

Nick Clegg estime que le fait d'obliger les entreprises d'IA à demander l'autorisation avant d'utiliser des contenus protégés par des droits d'auteur pour former des modèles d'IA détruirait le secteur. Nick Clegg a déclaré que la communauté créative devrait avoir le droit de refuser que son travail soit utilisé pour former des modèles d'IA. Mais il a affirmé qu'il n'était pas possible de demander le consentement des créateurs avant d'ingérer leur travail.

Envoyé par Nick Clegg

Je pense que la communauté créative veut aller plus loin. De nombreuses voix s'élèvent pour dire que l'on ne peut s'entraîner sur mon contenu que si l'on demande d'abord l'autorisation. Et je dois dire que cela me semble quelque peu invraisemblable, car ces systèmes s'entraînent sur de grandes quantités de données.

Je ne vois pas comment on peut demander à tout le monde d'abord. Je ne vois pas comment cela pourrait fonctionner. Et d'ailleurs, si vous le faisiez en Grande-Bretagne et que personne d'autre ne le faisait, vous tueriez du jour au lendemain l'industrie de l'intelligence artificielle dans ce pays.

Un projet inédit

Un groupe de chercheurs en intelligence artificielle a découvert qu'il était possible de créer un énorme ensemble de données de huit téraoctets en utilisant uniquement des textes sous licence libre ou appartenant au domaine public. Ils ont testé la qualité de l'ensemble de données en l'utilisant pour former un modèle de langage de 7 milliards de paramètres, qui a obtenu d'aussi bons résultats que des efforts comparables de l'industrie, tels que Llama 2-7B, que Meta a publié en 2023.

L'article détaillant leurs efforts révèle également que le processus a été laborieux, ardu et impossible à automatiser complètement.

Envoyé par Résumé de la recherche

Les grands modèles de langage (LLM) sont généralement formés sur d'énormes quantités de textes sans licence, une pratique qui a fait l'objet d'un examen minutieux en raison d'une éventuelle violation de la propriété intellectuelle et de préoccupations d'ordre éthique. L'entraînement des LLM sur des textes sous licence libre constitue un premier pas vers la résolution de ces problèmes, mais les efforts antérieurs de collecte de données ont abouti à des ensembles de données trop petits ou de qualité insuffisante pour produire des LLM performants.

Pour combler cette lacune, nous collectons, conservons et publions le Common Pile v0.1, une collection de huit téraoctets de textes sous licence libre conçue pour la formation préalable des LLM. Le Common Pile comprend du contenu provenant de 30 sources couvrant divers domaines, notamment des documents de recherche, des codes, des livres, des encyclopédies, du matériel éducatif, des transcriptions audio, etc.

Nous validons nos efforts en entraînant deux LLM de 7 milliards de paramètres sur du texte provenant de la pile commune : Comma v0.1-1T et Comma v0.1-2T, entraînés respectivement sur 1 et 2 trillions de tokens. Les deux modèles atteignent des performances compétitives par rapport aux LLM formés sur des textes sans licence avec des budgets de calcul similaires, tels que Llama 1 et 2 7B. En plus de publier le Common Pile v0.1 lui-même, nous publions également le code utilisé dans sa création ainsi que
le mélange d'entraînement et les points de contrôle pour les modèles Comma v0.1.

Le groupe a construit un modèle d'IA qui est nettement plus petit que les derniers modèles proposés par ChatGPT d'OpenAI ou Gemini de Google, mais ses résultats semblent représenter l'effort le plus important, le plus transparent et le plus rigoureux à ce jour pour démontrer une méthode différente de construction d'outils d'IA populaires.

Cela pourrait avoir des conséquences sur le débat politique qui entoure l'IA et le droit d'auteur

Le document lui-même ne prend pas position sur la question de savoir si l'utilisation de textes pour entraîner l'intelligence artificielle constitue un usage loyal.

Ce débat a été ravivé ces dernières semaines par une action en justice très médiatisée et par des changements spectaculaires dans la législation sur le droit d'auteur et son application, tant aux États-Unis qu'au Royaume-Uni.

Mercredi, Reddit a annoncé qu'elle poursuivait Anthropic, alléguant que cette dernière avait accédé à des données du forum de discussion des médias sociaux sans accord de licence, selon le Wall Street Journal. Le même jour, la Chambre des communes du Royaume-Uni a fait des concessions sur un projet de loi controversé qui permettrait aux entreprises d'IA de s'entraîner sur du matériel protégé par des droits d'auteur.

Ces mesures font suite au licenciement par le président Donald Trump, le mois dernier, de la directrice du Bureau américain du droit d'auteur, Shira Perlmutter. Son éviction a attiré l'attention sur le récent rapport de l'office sur l'IA, qui mettait en doute l'application du fair use aux œuvres protégées par le droit d'auteur dans le cadre de l'IA générative.

Les entreprises d'IA et leurs investisseurs, quant à eux, affirment depuis longtemps qu'il n'est pas possible de trouver une meilleure solution

En avril 2023, Sy Damle, un avocat représentant la société de capital-risque Andreessen Horowitz, a déclaré au Bureau américain du droit d'auteur : « La seule façon pratique pour ces outils d'exister est qu'ils puissent être formés sur des quantités massives de données sans avoir à concéder de licence pour ces données ». Plus tard dans l'année, dans des commentaires adressés au gouvernement britannique, OpenAI a déclaré : « qu'il serait impossible d'entraîner les principaux modèles d'IA d'aujourd'hui sans utiliser des documents protégés par le droit d'auteur. »

Et en janvier 2024, le témoin expert d'Anthropic dans un procès sur le droit d'auteur a affirmé que « l'hypothétique marché concurrentiel des licences couvrant les données pour former des LLM de pointe serait impraticable », comme le montrent les documents du tribunal.

Alors que les documents d'orientation sur l'IA évoquent souvent la nécessité d'ouvrir davantage les données et que les experts débattent de la question de savoir si les grands modèles de langage devraient être formés à partir de données sous licence provenant d'éditeurs, peu d'efforts sont déployés pour mettre la théorie en pratique, a déclaré le coauteur de l'article, Aviya Skowron, responsable des politiques à l'institut de recherche à but non lucratif Eleuther AI.

« J'aimerais également que ces personnes soient curieuses de savoir ce que cette tâche implique réellement », a déclaré Skowron.

Il s'avère que cette tâche implique beaucoup d'humains

En effet, les données ne sont pas formatées de manière à être lisibles par la machine, ce qui pose des problèmes techniques, mais aussi juridiques, puisqu'il faut déterminer quelle licence s'applique à quel site web, une perspective décourageante alors que le secteur est truffé de données dont la licence n'est pas respectée.

« Il ne s'agit pas d'une chose où l'on peut simplement augmenter les ressources dont on dispose », comme l'accès à davantage de puces informatiques et à un scraper web sophistiqué, a déclaré Stella Biderman, directrice exécutive d'Eleuther AI. « Nous utilisons des outils automatisés, mais toutes nos données sont annotées manuellement à la fin de la journée et vérifiées par des personnes. Et c'est vraiment très difficile ».

Néanmoins, le groupe a réussi à mettre au jour de nouveaux ensembles de données qui peuvent être utilisés de manière éthique. Il s'agit notamment d'un ensemble de 130 000 livres en langue anglaise de la Bibliothèque du Congrès, soit près du double de la taille de l'ensemble de données sur les livres populaires du Projet Gutenberg.

L'initiative du groupe s'appuie également sur des efforts récents visant à développer des ensembles de données plus éthiques, mais toujours utiles, tels que FineWeb de Hugging Face, le référentiel open-source pour l'apprentissage automatique.

Eleuther AI a été à l'origine d'un effort analogue en matière de logiciels libres en 2020, en créant un ensemble de données souvent cité appelé « Pile ». Un site qui hébergeait l'ensemble de données a dû le retirer en 2023 à la suite d'une demande au titre du Digital Millennium Copyright Act émanant du groupe danois de lutte contre le piratage Rights Alliance, qui a ciblé le fait que le Pile contenait Books3, un ensemble de données de livres pour lequel Meta fait l'objet d'une action en justice.

Le nouvel ensemble de données s'appelle Common Pile v0.1, et le modèle s'appelle Comma v0.1 - une référence délibérée à la conviction du groupe qu'il sera en mesure de trouver davantage de textes sous licence ouverte ou dans le domaine public, qui pourront ensuite être utilisés pour former des modèles plus importants.

Source : résultats de l'étude

Et vous ?

La performance des modèles IA justifie-t-elle vraiment de s'affranchir du droit d’auteur ?

Faut-il imposer un système de « opt-in » (autorisation préalable) plutôt que « opt-out » (retrait sur demande) pour l'utilisation des contenus protégés ?

Accepteriez-vous que votre travail serve à former une IA si vous receviez une rémunération ou un crédit explicite ?

Le modèle actuel vous semble-t-il plutôt basé sur la spoliation ou l’innovation collaborative ?

Le droit d’auteur tel qu’il est conçu aujourd’hui est-il adapté à l’ère de l’intelligence artificielle ?

Qui doit porter la responsabilité juridique en cas d’abus : le développeur, l’entreprise, ou l’utilisateur ?

Vous avez lu gratuitement 42 458 articles depuis plus d'un an.
Soutenez le club developpez.com en souscrivant un abonnement pour que nous puissions continuer à vous proposer des publications.

Une erreur dans cette actualité ? Signalez-nous-la !

Votre nom : Votre e-mail :

Décrivez l'erreur que vous souhaitez porter à notre connaissance :