IdentifiantMot de passe
Loading...
Mot de passe oublié ?Je m'inscris ! (gratuit)

Vous êtes nouveau sur Developpez.com ? Créez votre compte ou connectez-vous afin de pouvoir participer !

Vous devez avoir un compte Developpez.com et être connecté pour pouvoir participer aux discussions.

Vous n'avez pas encore de compte Developpez.com ? Créez-en un en quelques instants, c'est entièrement gratuit !

Si vous disposez déjà d'un compte et qu'il est bien activé, connectez-vous à l'aide du formulaire ci-dessous.

Identifiez-vous
Identifiant
Mot de passe
Mot de passe oublié ?
Créer un compte

L'inscription est gratuite et ne vous prendra que quelques instants !

Je m'inscris !

OpenAI proposerait aux éditeurs des offres aussi "dérisoires" qu'un million de dollars par an afin d'utiliser leurs articles pour entraîner ses modèles d'IA,
Selon un rapport

Le , par Mathis Lucas

10PARTAGES

3  0 
OpenAI chercherait à conclure des accords de licence avec les éditeurs de presse afin d'utiliser leurs articles pour entraîner ses modèles d'IA et échapper aux nombreuses actions en justice pour violation du droit d'auteur dont il fait l'objet. Mais les offres proposées par OpenAI sont jugées dérisoires. La société proposerait aux médias aussi peu qu'un million de dollars par an pour un accès légal à leurs contenus. Des sources indiquent que ces offres peuvent grimper jusqu'à cinq millions de dollars par an, mais les éditeurs sont réticents, car ces licences pourraient être trop avantageuses pour OpenAI. Les revenus annuels d'OpenAI se sont élevés à plus de 1,6 milliard de dollars en 2023.

Les entreprises développant des produits d'IA générative ont utilisé des articles de presse et d'autres données publiques pour entraîner leurs modèles d'IA, mais elles l'ont apparemment fait sans trop se préoccuper des droits de propriété intellectuelle. Résultat, elles sont aujourd'hui poursuivies par de nombreux éditeurs, auteurs et artistes pour utilisation illégale du matériel protégés par le droit d'auteur. Le dernier exemple en date est une action en justice intentée contre OpenAI par le quotidien américain The New York Times. La plainte exige qu'OpenAI supprime tous les articles du média des données d'entraînement de ses grands modèles de langage.

C'est la première fois qu'une grande société de médias traditionnelle américaine s'attaque à la nouvelle technologie devant les tribunaux et les conséquences pourraient être désastreuses pour OpenAI s'il perdait le procès. Ainsi, OpenAI cherche désormais des moyens légaux pour utiliser les contenus de la presse sans prendre le risque d'être poursuivi en justice. Cette semaine, l'on a appris qu'OpenAI est en pourparlers avec des dizaines d'éditeurs de presse en vue de conclure des accords de licence afin de pouvoir utiliser leurs articles pour entraîner ses modèles d'IA. Un représentant d'OpenAI a laissé entendre que les négociations évoluent normalement.


« Nous sommes au milieu de nombreuses négociations et discussions avec de nombreux éditeurs. Ils sont actifs. Ils sont très positifs. Elles progressent bien. Vous avez vu des accords annoncés, et il y en aura d'autres à l'avenir », a déclaré Tom Rubin, responsable de la propriété intellectuelle et du contenu chez OpenAI. Toutefois, les rapports sur le sujet font état d'une hésitation de la part des éditeurs. Selon un rapport de The Information, OpenAI serait prêt à offrir entre 1 et 5 millions de dollars par an à un éditeur afin d'obtenir une licence sur ses articles de presse protégés par le droit d'auteur. OpenAI pourra alors utiliser ces contenus comme il l'entend.

Cependant, des personnes impliquées dans les pourparlers avec OpenAI ont rapporté que les médias, y compris les petits éditeurs, considèrent que ces montants sont "minuscules". OpenAI a déjà conclu un accord de licence pluriannuel avec Axel Springer SE, la société mère de Politico, pour plusieurs dizaines de millions de dollars. En juillet, OpenAI a trouvé un accord avec Associated Press pour un montant non divulgué. Ces accords sont essentiels pour l'avenir d'OpenAI. Il doit trouver un équilibre entre la nécessité de disposer de données actualisées et précises pour élaborer ses modèles et l'attention croissante portée à la provenance de ces données.

Les montants semblent à peu près similaires à certains accords de licence antérieurs non liés à l'IA. Lorsque Meta a lancé l'onglet Facebook News - qui a depuis été supprimé en Europe - il aurait offert jusqu'à 3 millions de dollars par an pour la licence d'articles d'actualité, de titres et d'aperçus. Google a annoncé en 2020 qu'il investirait un milliard de dollars au total pour établir des partenariats avec des organismes de presse, par exemple. Sous la pression d'une nouvelle loi, Google a également accepté récemment de verser aux éditeurs canadiens un total de 100 millions de dollars par an en échange de la création de liens vers leurs articles.

Sur la toile, les réactions sont mitigées. Certains critiques trouvent que les offres proposées par OpenAI sont raisonnables, mais d'autres pas. Par ailleurs, le rapport de The Information révèle que deux des principaux rivaux d'OpenAI, notamment Google et Apple, sont également à la recherche d'accords de contenu avec des éditeurs de presse pour les mêmes raisons. Mais Apple serait en train d'offrir aux entreprises de médias plus d'argent en échange de droits d'utilisation plus étendus. La société veut pouvoir utiliser les articles dans ses futurs produits d'IA de toutes les manières qu'elle jugera nécessaires. L'on ignore à quel stade en sont les négociations.

Google aurait pris du retard sur les deux autres entreprises dans les négociations relatives aux licences sur l'utilisation des articles de presse pour l'entraînement des modèles d'IA, mais le géant de la recherche entretient déjà des relations avec certains médias grâce aux accords de licence qu'il a conclus pour le service Google News. Selon certains analystes, il s'agit probablement d'un avantage concurrentiel pour Google et cela pourrait faciliter la tâche à l'entreprise. Toutefois, les négociations se déroulent dans un contexte où les médias et autres créateurs s'inquiètent de plus en plus de l'utilisation du contenu pour former les grands modèles de langage.

Pour autant que nous sachions ce que contiennent leurs données d'apprentissage, les modèles de langage actuels ont principalement été formés à partir d'informations provenant d'Internet. Si certains modèles d'IA ne révèlent pas comment ils ont obtenu leurs données d'apprentissage, des informations sont souvent disponibles sur les ensembles de données ou les robots d'indexation utilisés. Le prix des ensembles de données d'entraînement varie en fonction du fournisseur, de la taille et du contenu de l'ensemble de données. D'autres jeux de données, comme LAION, sont libres et entièrement gratuits et sont utilisés par des modèles tels que Stable Diffusion.

Les développeurs d'IA mettent également souvent en place des robots d'indexation qui collectent des données sur Internet afin d'entraîner de leurs modèles d'IA. (Les fournisseurs d'IA doivent toujours embaucher des personnes pour vérifier, étiqueter et parfois nettoyer les données d'entraînement, ce qui augmente considérablement les coûts d'exploitation). Mais cette pratique est aujourd'hui confrontée à des défis majeurs. D'une part, plusieurs entreprises, dont le New York Times, empêchent les robots d'accéder à leurs données. D'autre part, plusieurs organisations affirment que la formation sur leurs données constitue une violation du droit d'auteur.

Selon les analystes, le procès du New York Times représente un défi existentiel pour les activités d'OpenAI. Si le média gagne le procès, OpenAI pourrait non...
La fin de cet article est réservée aux abonnés. Soutenez le Club Developpez.com en prenant un abonnement pour que nous puissions continuer à vous proposer des publications.

Une erreur dans cette actualité ? Signalez-nous-la !

Avatar de OrthodoxWindows
Membre expert https://www.developpez.com
Le 08/04/2024 à 10:48
Tant que GPT-4 ne bloque pas les publicités lors de son visionnage, pour Youtube ça ne devrait pas poser de problèmes.

9  0 
Avatar de Bardaz
Nouveau Candidat au Club https://www.developpez.com
Le 18/04/2025 à 17:41
Quelle outrecuidance ! Vouloir garder ses activités loin des yeux du système que vous utilisez.

Exemple similaire aujourd'hui même après les dernières MAJ de Windows en passant un coup de BCU Uninstaller pour virer la partie installée en standalone de Copilot. Ça simule la désinstallation mais ça ne se désinstalle pas et ce, même en virant les clés de registre par la suite. Je relance la désinstallation par acquis de conscience, rien à faire Copilot reste accroché au système comme une moule à son rocher.
5  0 
Avatar de Leruas
Membre éclairé https://www.developpez.com
Le 08/04/2024 à 21:24
Heureusement qu'ils n'ont pas entrainé GPT-4 sur des vidéos TikTok
4  0 
Avatar de totozor
Expert confirmé https://www.developpez.com
Le 04/04/2025 à 10:53
Citation Envoyé par Artaeus Voir le message
Le "droit d'auteur" est surtout devenu un abus
ne jetons pas le bébé avec l'eau du bain, les droits d'auteurs n'ont pas évolués avec l'art (au sens large) ce qui en fait un objet plus ou moins obsolète que les gens vont respecter ou invoquer quand ça les arrange.
Et tu sais d'autant plus le faire quand tu es puissant, c'est à dire que Universal n'a aucun problème à réclamer des droits à l'association des cinéphiles de pélouaille les vignes mais n'a aucun problème à sampler une musique sans rien donner au musicien initial (ou sas ayants droit).

Oui, on ne peut pas tout faire avec un œuvre et ça parait plutôt logique.
Il me semble normal que Jean Michel Tube de l'été puisse vivre les pieds en éventails parce qu'il a écrit le tube de l'été 1996 et qu'on aime se le repasser à la radio tous les ans.
Ca me semble un peu moins normal que Jean Pierre Plagiat ai la même vie parce qu'il a rajouté un kick à la musique en 2009.
Et je sais bien que je ne parles pas de Jean Charles techno qui l'a samplé en 2012 parce que la frontière entre les précédents n'est pas si claire.
2  0 
Avatar de petitours
Membre émérite https://www.developpez.com
Le 18/04/2025 à 16:06
Comment ça ? quelqu'un pourrait ne pas vouloir d'un tel progrés ?
2  0 
Avatar de irrmichael
Membre du Club https://www.developpez.com
Le 28/02/2024 à 22:54
c'est un peu gros non?
1  0 
Avatar de Matthieu Vergne
Expert éminent https://www.developpez.com
Le 29/02/2024 à 2:24
Plus c'est gros, plus ça passe. C'est un principe de base. {^_^}
1  0 
Avatar de Jules34
Membre émérite https://www.developpez.com
Le 08/04/2024 à 11:44
Personne se dit qu'en s'entrainant sur youtube un modele d'IA à plus de chambre de finir par ressembler au cousin dégénéré du moyen-âge qu'à un Leonard de Vinci 3.0 ?

L'IA entrainé à Pewdiepie c'est le début la fin des temps.
3  2 
Avatar de maxtal
Membre actif https://www.developpez.com
Le 10/04/2024 à 15:11
si ils viraient leurs brides idéologiques ça irait peut être déjà un peu plus loin
1  0 
Avatar de jnspunk
Membre habitué https://www.developpez.com
Le 22/11/2024 à 5:49
Ca me rappelle les suppressions accidentelles des témoins dans les films de mafia.
1  0