Les entreprises d'IA affirment qu'elles ne peuvent pas respecter les droits d'auteur mais ces chercheurs ont essayé

Démontrant que former des modèles d'IA puissants sans enfreindre la loi, c'est possible

Le 8 juin 2025 à 22:01, par Stéphane le calme

53PARTAGES

Au cœur d’un débat brûlant entre innovation technologique et respect des droits de propriété intellectuelle, nombre d’entreprises d’intelligence artificielle (IA) avancent que « le respect du droit d’auteur est impossible » dans leurs processus de formation. Pourtant, une équipe de chercheurs a relevé le défi... et semble avoir prouvé le contraire.

Contexte

Un collectif de plus de vingt chercheurs, piloté par l’association à but non lucratif EleutherAI (MIT, CMU, University of Toronto), a constitué un jeu de données de 8 To exclusivement issu de contenus sous licence ouverte ou appartenant au domaine public. À partir de ce corpus, ils ont entraîné Comma v0.1, un modèle de 7 milliards de paramètres, dont les performances sont comparables à celles de LLaMA 2‑7B de Meta, un modèle formé sur des données potentiellement protégées.

Contrairement aux gigantesques jeux de données non filtrés utilisés par les grandes entreprises d’IA, cette initiative a misé sur un protocole stringent :

Collecte uniquement sous licences libres ou domaine public ;
Annotation manuelle de chaque donnée pour valider les licences, indispensable face aux défis d’automatisation.

Le résultat ? Un modèle performant, mais dont la constitution reste coûteuse – tant en temps qu’en ressources.

Ce projet intervient dans un contexte législatif agité :

Aux États-Unis et au Royaume-Uni, des recours judiciaires et des propositions de lois (comme le Generative AI Copyright Disclosure Act) visent à encadrer l’usage des œuvres protégées.
En Europe, la réglementation exige désormais la transparence des jeux de données : les entreprises doivent publier un résumé détaillé des contenus utilisés, les titulaires pouvant s’y opposer (opt‑out).

OpenAI déclare la course à l'IA « terminée » s'il n'est pas possible d'entraîner les LLM sur des œuvres protégées

Ces dernières années, les capacités des chatbots d'IA, comme ChatGPT d'OpenAI, se sont considérablement améliorées ; ils s'appuient sur de grands modèles de langage (LLM) pour produire du contenu pour les utilisateurs. Mais le processus de formation est largement controversé, certains éditeurs accusant OpenAI d'utiliser des œuvres protégées par le droit d'auteur sans autorisation, et un certain nombre d'affaires juridiques sont en cours.

Défendant ses pratiques commerciales dans un procès, OpenAI a déclaré : « les modèles apprennent, comme nous le faisons tous, de ce qui a été fait auparavant. La défense de l'usage équitable existe précisément pour cette raison : encourager et permettre le développement de nouvelles idées qui s'appuient sur des idées antérieures ». Cette défense d'OpenAI est conforme aux précédentes déclarations de l'entreprise sur la formation de ses modèles.

En janvier 2024, OpenAI affirmait : « étant donné que le droit d'auteur couvre aujourd'hui pratiquement toutes les formes d'expression humaine, il serait impossible d’entraîner les meilleurs modèles d'IA d'aujourd'hui sans utiliser des documents protégés par le droit d'auteur ». OpenAI reconnaît donc ouvertement qu'il utilise des contenus protégés par le droit d'auteur pour créer ses modèles d'IA. L'entreprise n'a toutefois pas encore été condamnée.

Même son de cloche pour Nick Clegg, un homme politique britannique. Il a été vice-premier ministre du Royaume-Uni entre 2010 et 2015, puis responsable des affaires internationales et de la communication de Meta (anciennement Facebook) d'octobre 2018 à janvier 2025. Fervent défenseur des efforts de Meta en matière d'IA, il est revenu sur le débat sur la protection des droits d'auteur lors du festival de Charleston, dans l'East Sussex, un comté du sud-est de l'Angleterre.

Nick Clegg estime que le fait d'obliger les entreprises d'IA à demander l'autorisation avant d'utiliser des contenus protégés par des droits d'auteur pour former des modèles d'IA détruirait le secteur. Nick Clegg a déclaré que la communauté créative devrait avoir le droit de refuser que son travail soit utilisé pour former des modèles d'IA. Mais il a affirmé qu'il n'était pas possible de demander le consentement des créateurs avant d'ingérer leur travail.

Envoyé par Nick Clegg

Je pense que la communauté créative veut aller plus loin. De nombreuses voix s'élèvent pour dire que l'on ne peut s'entraîner sur mon contenu que si l'on demande d'abord l'autorisation. Et je dois dire que cela me semble quelque peu invraisemblable, car ces systèmes s'entraînent sur de grandes quantités de données.

Je ne vois pas comment on peut demander à tout le monde d'abord. Je ne vois pas comment cela pourrait fonctionner. Et d'ailleurs, si vous le faisiez en Grande-Bretagne et que personne d'autre ne le faisait, vous tueriez du jour au lendemain l'industrie de l'intelligence artificielle dans ce pays.

Un projet inédit

Un groupe de chercheurs en intelligence artificielle a découvert qu'il était possible de créer un énorme ensemble de données de huit téraoctets en utilisant uniquement des textes sous licence libre ou appartenant au domaine public. Ils ont testé la qualité de l'ensemble de données en l'utilisant pour former un modèle de langage de 7 milliards de paramètres, qui a obtenu d'aussi bons résultats que des efforts comparables de l'industrie, tels que Llama 2-7B, que Meta a publié en 2023.

L'article détaillant leurs efforts révèle également que le processus a été laborieux, ardu et impossible à automatiser complètement.

Envoyé par Résumé de la recherche

Les grands modèles de langage (LLM) sont généralement formés sur d'énormes quantités de textes sans licence, une pratique qui a fait l'objet d'un examen minutieux en raison d'une éventuelle violation de la propriété intellectuelle et de préoccupations d'ordre éthique. L'entraînement des LLM sur des textes sous licence libre constitue un premier pas vers la résolution de ces problèmes, mais les efforts antérieurs de collecte de données ont abouti à des ensembles de données trop petits ou de qualité insuffisante pour produire des LLM performants.

Pour combler cette lacune, nous collectons, conservons et publions le Common Pile v0.1, une collection de huit téraoctets de textes sous licence libre conçue pour la formation préalable des LLM. Le Common Pile comprend du contenu provenant de 30 sources couvrant divers domaines, notamment des documents de recherche, des codes, des livres, des encyclopédies, du matériel éducatif, des transcriptions audio, etc.

Nous validons nos efforts en entraînant deux LLM de 7 milliards de paramètres sur du texte provenant de la pile commune : Comma v0.1-1T et Comma v0.1-2T, entraînés respectivement sur 1 et 2 trillions de tokens. Les deux modèles atteignent des performances compétitives par rapport aux LLM formés sur des textes sans licence avec des budgets de calcul similaires, tels que Llama 1 et 2 7B. En plus de publier le Common Pile v0.1 lui-même, nous publions également le code utilisé dans sa création ainsi que
le mélange d'entraînement et les points de contrôle pour les modèles Comma v0.1.

Le groupe a construit un modèle d'IA qui est nettement plus petit que les derniers modèles proposés par ChatGPT d'OpenAI ou Gemini de Google, mais ses résultats semblent représenter l'effort le plus important, le plus transparent et le plus rigoureux à ce jour pour démontrer une méthode différente de construction d'outils d'IA populaires.

Cela pourrait avoir des conséquences sur le débat politique qui entoure l'IA et le droit d'auteur

Le document lui-même ne prend pas position sur la question de savoir si l'utilisation de textes pour entraîner l'intelligence artificielle constitue un usage loyal.

Ce débat a été ravivé ces dernières semaines par une action en justice très médiatisée et par des changements spectaculaires dans la législation sur le droit d'auteur et son application, tant aux États-Unis qu'au Royaume-Uni.

Mercredi, Reddit a annoncé qu'elle poursuivait Anthropic, alléguant que cette dernière avait accédé à des données du forum de discussion des médias sociaux sans accord de licence, selon le Wall Street Journal. Le même jour, la Chambre des communes du Royaume-Uni a fait des concessions sur un projet de loi controversé qui permettrait aux entreprises d'IA de s'entraîner sur du matériel protégé par des droits d'auteur.

Ces mesures font suite au licenciement par le président Donald Trump, le mois dernier, de la directrice du Bureau américain du droit d'auteur, Shira Perlmutter. Son éviction a attiré l'attention sur le récent rapport de l'office sur l'IA, qui mettait en doute l'application du fair use aux œuvres protégées par le droit d'auteur dans le cadre de l'IA générative.

Les entreprises d'IA et leurs investisseurs, quant à eux, affirment depuis longtemps qu'il n'est pas possible de trouver une meilleure solution

En avril 2023, Sy Damle, un avocat représentant la société de capital-risque Andreessen Horowitz, a déclaré au Bureau américain du droit d'auteur : « La seule façon pratique pour ces outils d'exister est qu'ils puissent être formés sur des quantités massives de données sans avoir à concéder de licence pour ces données ». Plus tard dans l'année, dans des commentaires adressés au gouvernement britannique, OpenAI a déclaré[...

La fin de cet article est réservée aux abonnés. Soutenez le Club Developpez.com en prenant un abonnement pour que nous puissions continuer à vous proposer des publications.

Une erreur dans cette actualité ? Signalez-nous-la !

Votre nom : Votre e-mail :

Décrivez l'erreur que vous souhaitez porter à notre connaissance :