IdentifiantMot de passe
Loading...
Mot de passe oublié ?Je m'inscris ! (gratuit)

Vous êtes nouveau sur Developpez.com ? Créez votre compte ou connectez-vous afin de pouvoir participer !

Vous devez avoir un compte Developpez.com et être connecté pour pouvoir participer aux discussions.

Vous n'avez pas encore de compte Developpez.com ? Créez-en un en quelques instants, c'est entièrement gratuit !

Si vous disposez déjà d'un compte et qu'il est bien activé, connectez-vous à l'aide du formulaire ci-dessous.

Identifiez-vous
Identifiant
Mot de passe
Mot de passe oublié ?
Créer un compte

L'inscription est gratuite et ne vous prendra que quelques instants !

Je m'inscris !

Les entreprises d'IA affirment qu'elles ne peuvent pas respecter les droits d'auteur mais ces chercheurs ont essayé
Démontrant que former des modèles d'IA puissants sans enfreindre la loi, c'est possible

Le , par Stéphane le calme

63PARTAGES

8  0 
Au cœur d’un débat brûlant entre innovation technologique et respect des droits de propriété intellectuelle, nombre d’entreprises d’intelligence artificielle (IA) avancent que « le respect du droit d’auteur est impossible » dans leurs processus de formation. Pourtant, une équipe de chercheurs a relevé le défi... et semble avoir prouvé le contraire.

Contexte

Un collectif de plus de vingt chercheurs, piloté par l’association à but non lucratif EleutherAI (MIT, CMU, University of Toronto), a constitué un jeu de données de 8 To exclusivement issu de contenus sous licence ouverte ou appartenant au domaine public. À partir de ce corpus, ils ont entraîné Comma v0.1, un modèle de 7 milliards de paramètres, dont les performances sont comparables à celles de LLaMA 2‑7B de Meta, un modèle formé sur des données potentiellement protégées.

Contrairement aux gigantesques jeux de données non filtrés utilisés par les grandes entreprises d’IA, cette initiative a misé sur un protocole stringent :
  • Collecte uniquement sous licences libres ou domaine public ;
  • Annotation manuelle de chaque donnée pour valider les licences, indispensable face aux défis d’automatisation.

Le résultat ? Un modèle performant, mais dont la constitution reste coûteuse – tant en temps qu’en ressources.

Ce projet intervient dans un contexte législatif agité :
  • Aux États-Unis et au Royaume-Uni, des recours judiciaires et des propositions de lois (comme le Generative AI Copyright Disclosure Act) visent à encadrer l’usage des œuvres protégées.
  • En Europe, la réglementation exige désormais la transparence des jeux de données : les entreprises doivent publier un résumé détaillé des contenus utilisés, les titulaires pouvant s’y opposer (opt‑out).

OpenAI déclare la course à l'IA « terminée » s'il n'est pas possible d'entraîner les LLM sur des œuvres protégées

Ces dernières années, les capacités des chatbots d'IA, comme ChatGPT d'OpenAI, se sont considérablement améliorées ; ils s'appuient sur de grands modèles de langage (LLM) pour produire du contenu pour les utilisateurs. Mais le processus de formation est largement controversé, certains éditeurs accusant OpenAI d'utiliser des œuvres protégées par le droit d'auteur sans autorisation, et un certain nombre d'affaires juridiques sont en cours.

Défendant ses pratiques commerciales dans un procès, OpenAI a déclaré : « les modèles apprennent, comme nous le faisons tous, de ce qui a été fait auparavant. La défense de l'usage équitable existe précisément pour cette raison : encourager et permettre le développement de nouvelles idées qui s'appuient sur des idées antérieures ». Cette défense d'OpenAI est conforme aux précédentes déclarations de l'entreprise sur la formation de ses modèles.

En janvier 2024, OpenAI affirmait : « étant donné que le droit d'auteur couvre aujourd'hui pratiquement toutes les formes d'expression humaine, il serait impossible d’entraîner les meilleurs modèles d'IA d'aujourd'hui sans utiliser des documents protégés par le droit d'auteur ». OpenAI reconnaît donc ouvertement qu'il utilise des contenus protégés par le droit d'auteur pour créer ses modèles d'IA. L'entreprise n'a toutefois pas encore été condamnée.

Même son de cloche pour Nick Clegg, un homme politique britannique. Il a été vice-premier ministre du Royaume-Uni entre 2010 et 2015, puis responsable des affaires internationales et de la communication de Meta (anciennement Facebook) d'octobre 2018 à janvier 2025. Fervent défenseur des efforts de Meta en matière d'IA, il est revenu sur le débat sur la protection des droits d'auteur lors du festival de Charleston, dans l'East Sussex, un comté du sud-est de l'Angleterre.

Nick Clegg estime que le fait d'obliger les entreprises d'IA à demander l'autorisation avant d'utiliser des contenus protégés par des droits d'auteur pour former des modèles d'IA détruirait le secteur. Nick Clegg a déclaré que la communauté créative devrait avoir le droit de refuser que son travail soit utilisé pour former des modèles d'IA. Mais il a affirmé qu'il n'était pas possible de demander le consentement des créateurs avant d'ingérer leur travail.

Citation Envoyé par Nick Clegg
Je pense que la communauté créative veut aller plus loin. De nombreuses voix s'élèvent pour dire que l'on ne peut s'entraîner sur mon contenu que si l'on demande d'abord l'autorisation. Et je dois dire que cela me semble quelque peu invraisemblable, car ces systèmes s'entraînent sur de grandes quantités de données.

Je ne vois pas comment on peut demander à tout le monde d'abord. Je ne vois pas comment cela pourrait fonctionner. Et d'ailleurs, si vous le faisiez en Grande-Bretagne et que personne d'autre ne le faisait, vous tueriez du jour au lendemain l'industrie de l'intelligence artificielle dans ce pays.


Un projet inédit

Un groupe de chercheurs en intelligence artificielle a découvert qu'il était possible de créer un énorme ensemble de données de huit téraoctets en utilisant uniquement des textes sous licence libre ou appartenant au domaine public. Ils ont testé la qualité de l'ensemble de données en l'utilisant pour former un modèle de langage de 7 milliards de paramètres, qui a obtenu d'aussi bons résultats que des efforts comparables de l'industrie, tels que Llama 2-7B, que Meta a publié en 2023.

L'article détaillant leurs efforts révèle également que le processus a été laborieux, ardu et impossible à automatiser complètement.

Citation Envoyé par Résumé de la recherche
Les grands modèles de langage (LLM) sont généralement formés sur d'énormes quantités de textes sans licence, une pratique qui a fait l'objet d'un examen minutieux en raison d'une éventuelle violation de la propriété intellectuelle et de préoccupations d'ordre éthique. L'entraînement des LLM sur des textes sous licence libre constitue un premier pas vers la résolution de ces problèmes, mais les efforts antérieurs de collecte de données ont abouti à des ensembles de données trop petits ou de qualité insuffisante pour produire des LLM performants.

Pour combler cette lacune, nous collectons, conservons et publions le Common Pile v0.1, une collection de huit téraoctets de textes sous licence libre conçue pour la formation préalable des LLM. Le Common Pile comprend du contenu provenant de 30 sources couvrant divers domaines, notamment des documents de recherche, des codes, des livres, des encyclopédies, du matériel éducatif, des transcriptions audio, etc.

Nous validons nos efforts en entraînant deux LLM de 7 milliards de paramètres sur du texte provenant de la pile commune : Comma v0.1-1T et Comma v0.1-2T, entraînés respectivement sur 1 et 2 trillions de tokens. Les deux modèles atteignent des performances compétitives par rapport aux LLM formés sur des textes sans licence avec des budgets de calcul similaires, tels que Llama 1 et 2 7B. En plus de publier le Common Pile v0.1 lui-même, nous publions également le code utilisé dans sa création ainsi que
le mélange d'entraînement et les points de contrôle pour les modèles Comma v0.1.

Le groupe a construit un modèle d'IA qui est nettement plus petit que les derniers modèles proposés par ChatGPT d'OpenAI ou Gemini de Google, mais ses résultats semblent représenter l'effort le plus important, le plus transparent et le plus rigoureux à ce jour pour démontrer une méthode différente de construction d'outils d'IA populaires.


Cela pourrait avoir des conséquences sur le débat politique qui entoure l'IA et le droit d'auteur

Le document lui-même ne prend pas position sur la question de savoir si l'utilisation de textes pour entraîner l'intelligence artificielle constitue un usage loyal.

Ce débat a été ravivé ces dernières semaines par une action en justice très médiatisée et par des changements spectaculaires dans la législation sur le droit d'auteur et son application, tant aux États-Unis qu'au Royaume-Uni.

Mercredi, Reddit a annoncé qu'elle poursuivait Anthropic, alléguant que cette dernière avait accédé à des données du forum de discussion des médias sociaux sans accord de licence, selon le Wall Street Journal. Le même jour, la Chambre des communes du Royaume-Uni a fait des concessions sur un projet de loi controversé qui permettrait aux entreprises d'IA de s'entraîner sur du matériel protégé par des droits d'auteur.

Ces mesures font suite au licenciement par le président Donald Trump, le mois dernier, de la directrice du Bureau américain du droit d'auteur, Shira Perlmutter. Son éviction a attiré l'attention sur le récent rapport de l'office sur l'IA, qui mettait en doute l'application du fair use aux œuvres protégées par le droit d'auteur dans le cadre de l'IA générative.

Les entreprises d'IA et leurs investisseurs, quant à eux, affirment depuis longtemps qu'il n'est pas possible de trouver une meilleure solution

En avril 2023, Sy Damle, un avocat représentant la société de capital-risque Andreessen Horowitz, a déclaré au Bureau américain du droit d'auteur : « La seule façon pratique pour ces outils d'exister est qu'ils puissent être formés sur des quantités massives de données sans avoir à concéder de licence pour ces données ». Plus tard dans l'année, dans des commentaires adressés au gouvernement britannique, OpenAI a déclaré[...
La fin de cet article est réservée aux abonnés. Soutenez le Club Developpez.com en prenant un abonnement pour que nous puissions continuer à vous proposer des publications.

Une erreur dans cette actualité ? Signalez-nous-la !

Avatar de shenron666
Expert confirmé https://www.developpez.com
Le 01/12/2025 à 15:46
Il n'y a que moi qui se demande pourquoi OpenAI n'a pas demandé à ChatGPT de faire le boulot ?
6  0 
Avatar de totozor
Expert confirmé https://www.developpez.com
Le 16/09/2025 à 7:30
Citation Envoyé par Ryu2000 Voir le message
Si le travail est trop dure et ne paie pas assez ils peuvent chercher un autre job moins chiant.
Un génie :
Tu as faim? Mange!
Tu es pauvre? Enrichi toi!
Tu travailles pas? Traverse la rue!
Tu as froid? Trouve un toit!
Tu es pas assez payé? Déménage, fais des études et traverse la rue.
Tu pollues? Arrête!

Rien que ça.
Ryu, notre sauveur.
Il a réponse à tout.
9  4 
Avatar de jnspunk
Membre habitué https://www.developpez.com
Le 09/07/2025 à 2:21
C'est ironique de voir qu'un article (Je parle de l'article scientifique) qui alerte sur les conclusions simplistes des modèles de langage finisse lui-même par en tirer une.
Il ne distingue pas entre une étude générée par un modèle de langage et une étude écrite par un humain, mais reformulée par un modèle pour corriger les fautes ou clarifier l'expression
Proposer un outil pour mesurer l'utilisation d'un modèle de langage dans un texte est une bonne idée, mais il est regrettable de négliger l'essentiel, à savoir différencier le fond de la forme.
3  0 
Avatar de OuftiBoy
Membre éprouvé https://www.developpez.com
Le 10/09/2025 à 18:03
Je ne suis pas trop d'accord...

Citation Envoyé par Matthieu Vergne Voir le message
Tant que ça s'apparente à du placebo, c'est à dire qu'il y a juste besoin d'une oreille à l'écoute sans réellement avoir besoin d'acte médical, ça me va très bien d'utiliser l'IA
Vu comment l'IA a tendance a "Halluciner", j'ai un gros doute sur la pertinence de la réponse d'une IA pour répondre ou proposer des solutions à une personne dépressive ou suicidaire... Cela me semble extrêmement dangereux même... Si quelqu'un ressent le besoin de consulter un psy, et que le rdv qu'on lui propose est trop lointain, et se "tourne" vers une IA en attendant, les dégâts sur la personne peuvent être dévastateurs. Qu'une IA "tente" d'apporter une aide à une personne "fragile" devrait selon moi même être interdit.

Mais, ce n'est que mon avis...

BàV et Peace & Love.
3  0 
Avatar de Anselme45
Membre extrêmement actif https://www.developpez.com
Le 02/12/2025 à 9:47
Citation Envoyé par Ryu2000 Voir le message
Après il faut bien que de l'argent rentre, il y a trop d'utilisateurs gratuits, chaque requête coûte à l'entreprise.
Donc il faut soit complètement stopper les utilisateurs gratuits (mais ils vont se mettre à utiliser Grok), soit mettre de la pub.
Ben oui mon bon monsieur, le succès de l'IA repose sur la gratuité et non pas sur son EFFICIENCE!

Il est bien là le vrai problème des promoteurs de l'IA, ils ont fait beaucoup de promesses aux utilisateurs, beaucoup de promesses aux investisseurs, mais en réalité l'IA ne produit que peu de vraies valeurs ajoutées

Quel est le seul vrai business que l'on peut faire quand on a volé toutes les données privées d'une cible? Ben en revenir on bonnes vieilles pratiques ancestrales: Profiter des faiblesses de la cible... La publicité ciblée n'est que la version civilisée de l'escroquerie...
4  1 
Avatar de tatayo
Expert éminent sénior https://www.developpez.com
Le 02/12/2025 à 10:41
Bonjour,
Citation Envoyé par Ryu2000 Voir le message
L'utilisateur a le choix :
- Ne pas utiliser de chatbot IA
- Payer un abonnement à un chatbot IA
- Voir de la pub afin de pouvoir utiliser un chatbot IA gratuitement

Il n'y a aucun problème avec ça. C'est normal.
Il faut bien que de l'argent rentre.
Pour changer, je suis d'accord avec Ryu2000. Enfin presque.
Youtube est blindé de pub, et personne ne râle.
Spotify insère de temps en temps de la pub (si tu n'as pas d'abonnement), idem.

Et dans les deux cas il suffit de payer un abonnement pour supprimer les pubs.
"Si c'est gratuit, c'est toi le produit".

MAIS, oui je vois un petit truc qui me chiffonne.
OpenAI "aspire" les données de sites pour l'apprentissage de ChatGPT sans rien payer en retour, donc pour moi il manque un petit truc dans l'équation.

Tatayo.
3  0 
Avatar de Jon Shannow
Membre extrêmement actif https://www.developpez.com
Le 05/09/2025 à 11:27
Les humains se confient de plus en plus à des thérapeutes IA pour des questions de santé mentale
S'ils font confiance à l'IA, c'est qu'ils ont vraiment besoin de consulter un psy !
3  1 
Avatar de OuftiBoy
Membre éprouvé https://www.developpez.com
Le 11/09/2025 à 13:25
calvaire,

Je respecte ton point de vue, mais...

Citation Envoyé par calvaire Voir le message
ou au contraire, une ia qui apporte des conseils/idées rationnels à la demande, au moment ou la personne en a le plus besoin (et pas devoir attendre le rdv), que ce soit à 10h du mat ou 3h du matin. Ca peut être très bénéfique.
Un peu comme l'apple watch qui détecte de l'hyper tension ou un problème cardiaque, pas besoin d'attendre le checkup annuel du médecin.

c'est une médecine accessible au plus grand nombre, personnalisé, et avec un suivie constant.
... On est encore loin d'avoir une IA dont on peut être certains qu'elle réponde de manière "rationnels". Il est peut-être plus préférable que cette personne participe à des discussions sur certains forums qui sont spécialisés dans ce domaine. Ok, il faut trouver le bon forum, tout comme il faudrait trouver la bonne IA.

Dire qu'une IA peut être une "médecine", "personnalisée", proposant "un suivi" constant, c'est (à mon avis, chacun à le sien) aller un peu vite au vu de la "qualité" des réponses des IAs actuellement. Une personne "fragile" a besoin d'un contact "humain" avant tout. Là où l'IA pourrait être utile, c'est de "repérer" qu'une personne est "fragile" (suivant ce qu'il visite, les questions qu'il pose, etc...) et lui proposer des forums de discutions "sérieux/reconnu".

Mais ce n'est que mon avis.

BàT et Peace & Love.
2  0 
Avatar de calvaire
Expert éminent https://www.developpez.com
Le 15/09/2025 à 9:18
Citation Envoyé par OuftiBoy Voir le message
calvaire
Non, je ne suis pas convaincu, je suis même persuadé du contraire. Nous vivons une drôle d'époque, où l'on peut communiquer en quelque seconde avec quelqu'un qu'on a jamais rencontré, qui vit à des centaines si pas des milliers de km, mais on est incapable de communiquer avec ses voisins. Voir des gens qui se réunissent pour boire en verre, et voir chacun de ces derniers les yeux rivés sur leur "smartphone", c'est d'une tristesse sans nom.
France Info m'a peut etre lu, il a justement publié un article la dessus hier.
Oui avoir une vie social ca coute de l'argent, vous peut être pas et tant mieux pour vous mais je le constate moi même et la j'ai une source fraiche à montrer.

chatgpt c'est gratuit et ca réponds toujours 24h/24 à la demande/quand on en a le plus besoin.
Vous avez peut etre la chance d'avoir des potes/des forums qui vous répondrons 24h/24 et vous coute 0€, ca existe je ne le nie pas mais j'ai un doute que ce soit une norme.

Si tu couches avec les meufs de tous tes potes tu as pas besoin d'un psy mais d'une tarte dans la gueule.
je ne serais pas surpris que la majorité des tromperies ce soit en 1 les collègues de travail et en 2 le cercle des ami(e)s.
Pour tromper il faut rencontrer, y'a les sites spécialisés ok, mais sinon c'est au boulot ou en soirée avec des potes, avec parfois même le conjoint cocu à 10m.

l'infidélité touche 50% des couples, donc j'ai envie de dire que la moitiés des amies/collegues de travail sont potentiellement concerné.
3  1 
Avatar de Jon Shannow
Membre extrêmement actif https://www.developpez.com
Le 17/09/2025 à 13:11
Citation Envoyé par Ryu2000 Voir le message
Il ne faut pas être un grammar nazi et tolérer les gens qui font des fautes. (parce que la grammaire c'est extrêmement compliqué)
Absolument pas. Je vais te dire un truc, pour ma part, faire des fautes d'orthographe et de grammaire, ça a été mon lot pendant des années au collège.
Mais, j'ai tout fait pour me corriger, et aujourd'hui, bien sûr il m'arrive encore d'en faire, mais je remercie chaleureusement ceux qui me corrigent. Et je pense que faire des fautes et trouver cela normal, est une preuve de fainéantise et de mépris du lecteur. Il n'y a pas de "grammar nazi", juste des "jenfoutistes" imbéciles qui n'ont aucun respect des autres.

Quand je fais du recrutement, les fautes de français sur une lettre de motivation ou sur un CV sont clairement éliminatoires. Si le candidat n'est pas capable de fournir un effort pour écrire une page ou deux correctement, alors il ne doit pas être très consciencieux dans son boulot. D'autant plus qu'aujourd'hui, contrairement à mon époque, il y a des correcteurs orthographiques et grammaticaux qui mâchent le travail de relecture.
Et, si j'ai un soupçon d'utilisation d'une IA pour écrire le CV ou la lettre, c'est poubelle direct !
6  4