Au cœur d’un débat brûlant entre innovation technologique et respect des droits de propriété intellectuelle, nombre d’entreprises d’intelligence artificielle (IA) avancent que « le respect du droit d’auteur est impossible » dans leurs processus de formation. Pourtant, une équipe de chercheurs a relevé le défi... et semble avoir prouvé le contraire.Contexte
Un collectif de plus de vingt chercheurs, piloté par l’association à but non lucratif EleutherAI (MIT, CMU, University of Toronto), a constitué un jeu de données de 8 To exclusivement issu de contenus sous licence ouverte ou appartenant au domaine public. À partir de ce corpus, ils ont entraîné Comma v0.1, un modèle de 7 milliards de paramètres, dont les performances sont comparables à celles de LLaMA 2‑7B de Meta, un modèle formé sur des données potentiellement protégées.
Contrairement aux gigantesques jeux de données non filtrés utilisés par les grandes entreprises d’IA, cette initiative a misé sur un protocole stringent :
- Collecte uniquement sous licences libres ou domaine public ;
- Annotation manuelle de chaque donnée pour valider les licences, indispensable face aux défis d’automatisation.
Le résultat ? Un modèle performant, mais dont la constitution reste coûteuse – tant en temps qu’en ressources.
Ce projet intervient dans un contexte législatif agité :
- Aux États-Unis et au Royaume-Uni, des recours judiciaires et des propositions de lois (comme le Generative AI Copyright Disclosure Act) visent à encadrer l’usage des œuvres protégées.
- En Europe, la réglementation exige désormais la transparence des jeux de données : les entreprises doivent publier un résumé détaillé des contenus utilisés, les titulaires pouvant s’y opposer (opt‑out).
OpenAI déclare la course à l'IA « terminée » s'il n'est pas possible d'entraîner les LLM sur des œuvres protégées
Ces dernières années, les capacités des chatbots d'IA, comme ChatGPT d'OpenAI, se sont considérablement améliorées ; ils s'appuient sur de grands modèles de langage (LLM) pour produire du contenu pour les utilisateurs. Mais le processus de formation est largement controversé, certains éditeurs accusant OpenAI d'utiliser des œuvres protégées par le droit d'auteur sans autorisation, et un certain nombre d'affaires juridiques sont en cours.
Défendant ses pratiques commerciales dans un procès, OpenAI a déclaré : « les modèles apprennent, comme nous le faisons tous, de ce qui a été fait auparavant. La défense de l'usage équitable existe précisément pour cette raison : encourager et permettre le développement de nouvelles idées qui s'appuient sur des idées antérieures ». Cette défense d'OpenAI est conforme aux précédentes déclarations de l'entreprise sur la formation de ses modèles.
En janvier 2024, OpenAI affirmait : « étant donné que le droit d'auteur couvre aujourd'hui pratiquement toutes les formes d'expression humaine, il serait impossible d’entraîner les meilleurs modèles d'IA d'aujourd'hui sans utiliser des documents protégés par le droit d'auteur ». OpenAI reconnaît donc ouvertement qu'il utilise des contenus protégés par le droit d'auteur pour créer ses modèles d'IA. L'entreprise n'a toutefois pas encore été condamnée.
Même son de cloche pour Nick Clegg, un homme politique britannique. Il a été vice-premier ministre du Royaume-Uni entre 2010 et 2015, puis responsable des affaires internationales et de la communication de Meta (anciennement Facebook) d'octobre 2018 à janvier 2025. Fervent défenseur des efforts de Meta en matière d'IA, il est revenu sur le débat sur la protection des droits d'auteur lors du festival de Charleston, dans l'East Sussex, un comté du sud-est de l'Angleterre.
Nick Clegg estime que le fait d'obliger les entreprises d'IA à demander l'autorisation avant d'utiliser des contenus protégés par des droits d'auteur pour former des modèles d'IA détruirait le secteur. Nick Clegg a déclaré que la communauté créative devrait avoir le droit de refuser que son travail soit utilisé pour former des modèles d'IA. Mais il a affirmé qu'il n'était pas possible de demander le consentement des créateurs avant d'ingérer leur travail.
Un projet inédit
Un groupe de chercheurs en intelligence artificielle a découvert qu'il était possible de créer un énorme ensemble de données de huit téraoctets en utilisant uniquement des textes sous licence libre ou appartenant au domaine public. Ils ont testé la qualité de l'ensemble de données en l'utilisant pour former un modèle de...
La fin de cet article est réservée aux abonnés. Soutenez le Club Developpez.com en prenant un abonnement pour que nous puissions continuer à vous proposer des publications.

