IdentifiantMot de passe
Loading...
Mot de passe oublié ?Je m'inscris ! (gratuit)

Vous êtes nouveau sur Developpez.com ? Créez votre compte ou connectez-vous afin de pouvoir participer !

Vous devez avoir un compte Developpez.com et être connecté pour pouvoir participer aux discussions.

Vous n'avez pas encore de compte Developpez.com ? Créez-en un en quelques instants, c'est entièrement gratuit !

Si vous disposez déjà d'un compte et qu'il est bien activé, connectez-vous à l'aide du formulaire ci-dessous.

Identifiez-vous
Identifiant
Mot de passe
Mot de passe oublié ?
Créer un compte

L'inscription est gratuite et ne vous prendra que quelques instants !

Je m'inscris !

OpenAI proposerait aux éditeurs des offres aussi "dérisoires" qu'un million de dollars par an afin d'utiliser leurs articles pour entraîner ses modèles d'IA,
Selon un rapport

Le , par Mathis Lucas

17PARTAGES

3  0 
OpenAI proposerait aux éditeurs des offres aussi "dérisoires" qu'un million de dollars par an afin d'utiliser leurs articles pour entraîner ses modèles d'IA
selon un rapport

OpenAI chercherait à conclure des accords de licence avec les éditeurs de presse afin d'utiliser leurs articles pour entraîner ses modèles d'IA et échapper aux nombreuses actions en justice pour violation du droit d'auteur dont il fait l'objet. Mais les offres proposées par OpenAI sont jugées dérisoires. La société proposerait aux médias aussi peu qu'un million de dollars par an pour un accès légal à leurs contenus. Des sources indiquent que ces offres peuvent grimper jusqu'à cinq millions de dollars par an, mais les éditeurs sont réticents, car ces licences pourraient être trop avantageuses pour OpenAI. Les revenus annuels d'OpenAI se sont élevés à plus de 1,6 milliard de dollars en 2023.

Les entreprises développant des produits d'IA générative ont utilisé des articles de presse et d'autres données publiques pour entraîner leurs modèles d'IA, mais elles l'ont apparemment fait sans trop se préoccuper des droits de propriété intellectuelle. Résultat, elles sont aujourd'hui poursuivies par de nombreux éditeurs, auteurs et artistes pour utilisation illégale du matériel protégés par le droit d'auteur. Le dernier exemple en date est une action en justice intentée contre OpenAI par le quotidien américain The New York Times. La plainte exige qu'OpenAI supprime tous les articles du média des données d'entraînement de ses grands modèles de langage.

C'est la première fois qu'une grande société de médias traditionnelle américaine s'attaque à la nouvelle technologie devant les tribunaux et les conséquences pourraient être désastreuses pour OpenAI s'il perdait le procès. Ainsi, OpenAI cherche désormais des moyens légaux pour utiliser les contenus de la presse sans prendre le risque d'être poursuivi en justice. Cette semaine, l'on a appris qu'OpenAI est en pourparlers avec des dizaines d'éditeurs de presse en vue de conclure des accords de licence afin de pouvoir utiliser leurs articles pour entraîner ses modèles d'IA. Un représentant d'OpenAI a laissé entendre que les négociations évoluent normalement.


« Nous sommes au milieu de nombreuses négociations et discussions avec de nombreux éditeurs. Ils sont actifs. Ils sont très positifs. Elles progressent bien. Vous avez vu des accords annoncés, et il y en aura d'autres à l'avenir », a déclaré Tom Rubin, responsable de la propriété intellectuelle et du contenu chez OpenAI. Toutefois, les rapports sur le sujet font état d'une hésitation de la part des éditeurs. Selon un rapport de The Information, OpenAI serait prêt à offrir entre 1 et 5 millions de dollars par an à un éditeur afin d'obtenir une licence sur ses articles de presse protégés par le droit d'auteur. OpenAI pourra alors utiliser ces contenus comme il l'entend.

Cependant, des personnes impliquées dans les pourparlers avec OpenAI ont rapporté que les médias, y compris les petits éditeurs, considèrent que ces montants sont "minuscules". OpenAI a déjà conclu un accord de licence pluriannuel avec Axel Springer SE, la société mère de Politico, pour plusieurs dizaines de millions de dollars. En juillet, OpenAI a trouvé un accord avec Associated Press pour un montant non divulgué. Ces accords sont essentiels pour l'avenir d'OpenAI. Il doit trouver un équilibre entre la nécessité de disposer de données actualisées et précises pour élaborer ses modèles et l'attention croissante portée à la provenance de ces données.

Les montants semblent à peu près similaires à certains accords de licence antérieurs non liés à l'IA. Lorsque Meta a lancé l'onglet Facebook News - qui a depuis été supprimé en Europe - il aurait offert jusqu'à 3 millions de dollars par an pour la licence d'articles d'actualité, de titres et d'aperçus. Google a annoncé en 2020 qu'il investirait un milliard de dollars au total pour établir des partenariats avec des organismes de presse, par exemple. Sous la pression d'une nouvelle loi, Google a également accepté récemment de verser aux éditeurs canadiens un total de 100 millions de dollars par an en échange de la création de liens vers leurs articles.

Sur la toile, les réactions sont mitigées. Certains critiques trouvent que les offres proposées par OpenAI sont raisonnables, mais d'autres pas. Par ailleurs, le rapport de The Information révèle que deux des principaux rivaux d'OpenAI, notamment Google et Apple, sont également à la recherche d'accords de contenu avec des éditeurs de presse pour les mêmes raisons. Mais Apple serait en train d'offrir aux entreprises de médias plus d'argent en échange de droits d'utilisation plus étendus. La société veut pouvoir utiliser les articles dans ses futurs produits d'IA de toutes les manières qu'elle jugera nécessaires. L'on ignore à quel stade en sont les négociations.

Google aurait pris du retard sur les deux autres entreprises dans les négociations relatives aux licences sur l'utilisation des articles de presse pour l'entraînement des modèles d'IA, mais le géant de la recherche entretient déjà des relations avec certains médias grâce aux accords de licence qu'il a conclus pour le service Google News. Selon certains analystes, il s'agit probablement d'un avantage concurrentiel pour Google et cela pourrait faciliter la tâche à l'entreprise. Toutefois, les négociations se déroulent dans un contexte où les médias et autres créateurs s'inquiètent de plus en plus de l'utilisation du contenu pour former les grands modèles de langage.

Pour autant que nous sachions ce que contiennent leurs données d'apprentissage, les modèles de langage actuels ont principalement été formés à partir d'informations provenant d'Internet. Si certains modèles d'IA ne révèlent pas comment ils ont obtenu leurs données d'apprentissage, des informations sont souvent disponibles sur les ensembles de données ou les robots d'indexation utilisés. Le prix des ensembles de données d'entraînement varie en fonction du fournisseur, de la taille et du contenu de l'ensemble de données. D'autres jeux de données, comme LAION, sont libres et entièrement gratuits et sont utilisés par des modèles tels que Stable Diffusion.

Les développeurs d'IA mettent également souvent en place des robots d'indexation qui collectent des données sur Internet afin d'entraîner de leurs modèles d'IA. (Les fournisseurs d'IA doivent toujours embaucher des personnes pour vérifier, étiqueter et parfois nettoyer les données d'entraînement, ce qui augmente considérablement les coûts d'exploitation). Mais cette pratique est aujourd'hui confrontée à des défis majeurs. D'une part, plusieurs entreprises, dont le New York Times, empêchent les robots d'accéder à leurs données. D'autre part, plusieurs organisations affirment que la formation sur leurs données constitue une violation du droit d'auteur.

Selon les analystes, le procès du New York Times représente un défi existentiel pour les activités d'OpenAI. Si le média gagne le procès, OpenAI pourrait non seulement devoir des milliards de dollars en guise de dommages-intérêts, mais aussi être forcé de détruire toutes ses données de formation comprenant des travaux de l'éditeur. Cette tâche pourrait être coûteuse et compliquée. Dans l'immédiat, cependant, le procès complique les efforts d'OpenAI pour conclure des accords avec l'industrie des médias. Un porte-parole d'OpenAI a déclaré récemment que l'entreprise était surprise et déçue que le New York Times ait intenté une action en justice.

OpenAI a ajouté qu'il espère néanmoins trouver un moyen mutuellement bénéfique de travailler avec le New York Times. « Nous respectons les droits des créateurs et des propriétaires de contenus et nous nous engageons à travailler avec eux pour qu'ils bénéficient de la technologie de l'IA et de nouveaux modèles de revenus », note un communiqué de l'entreprise. Selon Rubin, la situation actuelle est très différente de celles auxquelles les éditeurs ont été confrontés dans le passé avec les moteurs de recherche et les médias sociaux. Rubin a déclaré que le contenu des articles de presse est utilisé pour entraîner un modèle, pas pour reproduire le contenu.

Mais le Times n'est pas d'accord avec la position d'OpenAI, estimant que ChatGPT copie carrément le travail de ses journalistes sans payer pour cela. Dans son procès, l'éditeur a montré des exemples dans lesquels ChatGPT régurgitait des paragraphes entiers de texte presque mot à mot du New York Times. L'éditeur affirme que c'est la preuve qu'OpenAI a utilisé les données du New York Times. « Si Microsoft et OpenAI veulent utiliser notre travail à des fins commerciales, la loi exige qu'ils obtiennent d'abord notre autorisation. Ils ne l'ont pas fait », a déclaré le New York Times dans un communiqué. Certains ont toutefois critiqué la position du New York Times.

Et vous ?

Quel est votre avis sur le sujet ?
Que pensez-vous du montant proposé par OpenAI aux éditeurs de presse pour accéder à leurs contenus ?
Pensez-vous que ce montant est dérisoire ? Ces accords profiteront-ils davantage à OpenAI qu'aux éditeurs ?
Ces accords de licence risquent-ils d'augmenter les coûts de développement des grands modèles de langage ?

Voir aussi

Le New York Times exige qu'OpenAI supprime toutes ses instances GPT dans une poursuite relative au droit d'auteur, affirmant que des millions de ses articles ont été utilisés pour former ChatGPT

George R.R, romancier de "Game of Thrones", John Grisham et d'autres grands auteurs américains poursuivent OpenAI pour des questions de droits d'auteur

OpenAI et Meta accusés d'avoir utilisé les œuvres de Sarah Silverman et de deux auteurs sans leur consentement, comme données d'entraînements de leurs IA. Les plaintes de ce type se multiplient
Vous avez lu gratuitement 983 articles depuis plus d'un an.
Soutenez le club developpez.com en souscrivant un abonnement pour que nous puissions continuer à vous proposer des publications.

Une erreur dans cette actualité ? Signalez-nous-la !

Avatar de OrthodoxWindows
Membre expert https://www.developpez.com
Le 08/04/2024 à 10:48
Tant que GPT-4 ne bloque pas les publicités lors de son visionnage, pour Youtube ça ne devrait pas poser de problèmes.

9  0 
Avatar de kain_tn
Expert éminent https://www.developpez.com
Le 01/05/2025 à 12:32
Citation Envoyé par Stéphane le calme Voir le message
Le PDG de Microsoft affirme que jusqu'à 30 % du code de l'entreprise a été généré par son IA Copilot, innovation ou dépendance algorithmique ?
L’IA s’impose dans l’environnement quotidien des développeurs Microsoft
Quand on voit la teneur des correctifs des derniers patchs de sa société, il devrait plutôt faire profil bas...

Citation Envoyé par Stéphane le calme Voir le message
Peut-on réellement faire confiance au code généré par l'IA sans relecture humaine ?
Non.

Citation Envoyé par Stéphane le calme Voir le message
Comment intégrer efficacement l’IA dans une chaîne DevOps sans compromettre la qualité ou la sécurité ?
Pourquoi faire? Autant laisser les boîtes qui ne jurent que par ça s'écrouler sous le poids de leurs cochonneries. Ça fera de la place pour celles qui considèrent encore la qualité.

Citation Envoyé par Stéphane le calme Voir le message
L’IA est-elle capable de générer un code maintenable à long terme, ou produit-elle surtout du “jetable” ?
Non, c'est du jetable. Pour créer du code maintenable à long terme, cela demande des compétences et de la réflexion - ce dont une IA générative n'est pas dotée, puisqu'elle ne réfléchit pas...

Citation Envoyé par Stéphane le calme Voir le message
Faut-il former tous les développeurs à l’ingénierie de prompt et à la relecture de code IA ?
Des développeurs passant leur journée à ne plus coder mais à lire le code pourri généré par un programme seront-ils encore des développeurs? Sauront-il encore corriger du code? Pour combien de temps?
Pourquoi se préoccuper de former tous les développeurs aux outils complètement propriétaires d'une poignée d'entreprises cupides? Pour faire plaisir à leurs actionnaires? Si des entreprises ont officiellement besoin d'IA génératives, qu'elles forment elles-mêmes leurs développeurs.

Citation Envoyé par Stéphane le calme Voir le message
Les développeurs de demain seront-ils des "relecteurs de code IA" ou des "concepteurs augmentés" ? Quelles compétences humaines deviendront les plus valorisées face à l’automatisation du codage ?
Ni l'un ni l'autre. Les développeurs resteront des développeurs. Les autres seront de simples escrocs
8  0 
Avatar de Bardaz
Nouveau Candidat au Club https://www.developpez.com
Le 18/04/2025 à 17:41
Quelle outrecuidance ! Vouloir garder ses activités loin des yeux du système que vous utilisez.

Exemple similaire aujourd'hui même après les dernières MAJ de Windows en passant un coup de BCU Uninstaller pour virer la partie installée en standalone de Copilot. Ça simule la désinstallation mais ça ne se désinstalle pas et ce, même en virant les clés de registre par la suite. Je relance la désinstallation par acquis de conscience, rien à faire Copilot reste accroché au système comme une moule à son rocher.
5  0 
Avatar de Leruas
Membre éclairé https://www.developpez.com
Le 08/04/2024 à 21:24
Heureusement qu'ils n'ont pas entrainé GPT-4 sur des vidéos TikTok
4  0 
Avatar de Axel Mattauch
Membre averti https://www.developpez.com
Le 25/06/2025 à 12:50
Peut-on promettre aux utilisateurs un véritable droit à l’effacement quand des obligations judiciaires peuvent en suspendre l'exécution ?
Qui joue le plus à la vierge effarouchée?

En s’offusquant de se soumettre à une "obligation de conservation" les GAFAM & assimilés ne cherchent pas à préserver le quidam d'intrusion dans la sphère privée, puisque cette intrusion est le fond de commerce même desdites compagnies. Ce qu'elles veulent c'est pouvoir garder ce qu'elles veulent (y compris tout) sans qu'aucune juridiction ne puisse intervenir.

Le droit à l'effacement est du doux pipotage, quand c'est proclamé par les vampires de data.
3  0 
Avatar de totozor
Expert confirmé https://www.developpez.com
Le 04/04/2025 à 10:53
Citation Envoyé par Artaeus Voir le message
Le "droit d'auteur" est surtout devenu un abus
ne jetons pas le bébé avec l'eau du bain, les droits d'auteurs n'ont pas évolués avec l'art (au sens large) ce qui en fait un objet plus ou moins obsolète que les gens vont respecter ou invoquer quand ça les arrange.
Et tu sais d'autant plus le faire quand tu es puissant, c'est à dire que Universal n'a aucun problème à réclamer des droits à l'association des cinéphiles de pélouaille les vignes mais n'a aucun problème à sampler une musique sans rien donner au musicien initial (ou sas ayants droit).

Oui, on ne peut pas tout faire avec un œuvre et ça parait plutôt logique.
Il me semble normal que Jean Michel Tube de l'été puisse vivre les pieds en éventails parce qu'il a écrit le tube de l'été 1996 et qu'on aime se le repasser à la radio tous les ans.
Ca me semble un peu moins normal que Jean Pierre Plagiat ai la même vie parce qu'il a rajouté un kick à la musique en 2009.
Et je sais bien que je ne parles pas de Jean Charles techno qui l'a samplé en 2012 parce que la frontière entre les précédents n'est pas si claire.
2  0 
Avatar de petitours
Membre émérite https://www.developpez.com
Le 18/04/2025 à 16:06
Comment ça ? quelqu'un pourrait ne pas vouloir d'un tel progrés ?
2  0 
Avatar de Artaeus
Nouveau Candidat au Club https://www.developpez.com
Le 06/06/2025 à 13:56
Drôle d'époque où ce sont les entreprises privés qui défendent nos intérêts face aux délires étatiques de surveillance globale ...
On le voit en France aussi avec l'interdiction puritaine du porn par le gouv (en se servant des enfants comme prétexte bidon).
2  0 
Avatar de irrmichael
Membre du Club https://www.developpez.com
Le 28/02/2024 à 22:54
c'est un peu gros non?
1  0 
Avatar de Matthieu Vergne
Expert éminent https://www.developpez.com
Le 29/02/2024 à 2:24
Plus c'est gros, plus ça passe. C'est un principe de base. {^_^}
1  0