IdentifiantMot de passe
Loading...
Mot de passe oublié ?Je m'inscris ! (gratuit)

Vous êtes nouveau sur Developpez.com ? Créez votre compte ou connectez-vous afin de pouvoir participer !

Vous devez avoir un compte Developpez.com et être connecté pour pouvoir participer aux discussions.

Vous n'avez pas encore de compte Developpez.com ? Créez-en un en quelques instants, c'est entièrement gratuit !

Si vous disposez déjà d'un compte et qu'il est bien activé, connectez-vous à l'aide du formulaire ci-dessous.

Identifiez-vous
Identifiant
Mot de passe
Mot de passe oublié ?
Créer un compte

L'inscription est gratuite et ne vous prendra que quelques instants !

Je m'inscris !

OpenAI proposerait aux éditeurs des offres aussi "dérisoires" qu'un million de dollars par an afin d'utiliser leurs articles pour entraîner ses modèles d'IA,
Selon un rapport

Le , par Mathis Lucas

5PARTAGES

3  0 
OpenAI chercherait à conclure des accords de licence avec les éditeurs de presse afin d'utiliser leurs articles pour entraîner ses modèles d'IA et échapper aux nombreuses actions en justice pour violation du droit d'auteur dont il fait l'objet. Mais les offres proposées par OpenAI sont jugées dérisoires. La société proposerait aux médias aussi peu qu'un million de dollars par an pour un accès légal à leurs contenus. Des sources indiquent que ces offres peuvent grimper jusqu'à cinq millions de dollars par an, mais les éditeurs sont réticents, car ces licences pourraient être trop avantageuses pour OpenAI. Les revenus annuels d'OpenAI se sont élevés à plus de 1,6 milliard de dollars en 2023.

Les entreprises développant des produits d'IA générative ont utilisé des articles de presse et d'autres données publiques pour entraîner leurs modèles d'IA, mais elles l'ont apparemment fait sans trop se préoccuper des droits de propriété intellectuelle. Résultat, elles sont aujourd'hui poursuivies par de nombreux éditeurs, auteurs et artistes pour utilisation illégale du matériel protégés par le droit d'auteur. Le dernier exemple en date est une action en justice intentée contre OpenAI par le quotidien américain The New York Times. La plainte exige qu'OpenAI supprime tous les articles du média des données d'entraînement de ses grands modèles de langage.

C'est la première fois qu'une grande société de médias traditionnelle américaine s'attaque à la nouvelle technologie devant les tribunaux et les conséquences pourraient être désastreuses pour OpenAI s'il perdait le procès. Ainsi, OpenAI cherche désormais des moyens légaux pour utiliser les contenus de la presse sans prendre le risque d'être poursuivi en justice. Cette semaine, l'on a appris qu'OpenAI est en pourparlers avec des dizaines d'éditeurs de presse en vue de conclure des accords de licence afin de pouvoir utiliser leurs articles pour entraîner ses modèles d'IA. Un représentant d'OpenAI a laissé entendre que les négociations évoluent normalement.


« Nous sommes au milieu de nombreuses négociations et discussions avec de nombreux éditeurs. Ils sont actifs. Ils sont très positifs. Elles progressent bien. Vous avez vu des accords annoncés, et il y en aura d'autres à l'avenir », a déclaré Tom Rubin, responsable de la propriété intellectuelle et du contenu chez OpenAI. Toutefois, les rapports sur le sujet font état d'une hésitation de la part des éditeurs. Selon un rapport de The Information, OpenAI serait prêt à offrir entre 1 et 5 millions de dollars par an à un éditeur afin d'obtenir une licence sur ses articles de presse protégés par le droit d'auteur. OpenAI pourra alors utiliser ces contenus comme il l'entend.

Cependant, des personnes impliquées dans les pourparlers avec OpenAI ont rapporté que les médias, y compris les petits éditeurs, considèrent que ces montants sont "minuscules". OpenAI a déjà conclu un accord de licence pluriannuel avec Axel Springer SE, la société mère de Politico, pour plusieurs dizaines de millions de dollars. En juillet, OpenAI a trouvé un accord avec Associated Press pour un montant non divulgué. Ces accords sont essentiels pour l'avenir d'OpenAI. Il doit trouver un équilibre entre la nécessité de disposer de données actualisées et précises pour élaborer ses modèles et l'attention croissante portée à la provenance de ces données.

Les montants semblent à peu près similaires à certains accords de licence antérieurs non liés à l'IA. Lorsque Meta a lancé l'onglet Facebook News - qui a depuis été supprimé en Europe - il aurait offert jusqu'à 3 millions de dollars par an pour la licence d'articles d'actualité, de titres et d'aperçus. Google a annoncé en 2020 qu'il investirait un milliard de dollars au total pour établir des partenariats avec des organismes de presse, par exemple. Sous la pression d'une nouvelle loi, Google a également accepté récemment de verser aux éditeurs canadiens un total de 100 millions de dollars par an en échange de la création de liens vers leurs articles.

Sur la toile, les réactions sont mitigées. Certains critiques trouvent que les offres proposées par OpenAI sont raisonnables, mais d'autres pas. Par ailleurs, le rapport de The Information révèle que deux des principaux rivaux d'OpenAI, notamment Google et Apple, sont également à la recherche d'accords de contenu avec des éditeurs de presse pour les mêmes raisons. Mais Apple serait en train d'offrir aux entreprises de médias plus d'argent en échange de droits d'utilisation plus étendus. La société veut pouvoir utiliser les articles dans ses futurs produits d'IA de toutes les manières qu'elle jugera nécessaires. L'on ignore à quel stade en sont les négociations.

Google aurait pris du retard sur les deux autres entreprises dans les négociations relatives aux licences sur l'utilisation des articles de presse pour l'entraînement des modèles d'IA, mais le géant de la recherche entretient déjà des relations avec certains médias grâce aux accords de licence qu'il a conclus pour le service Google News. Selon certains analystes, il s'agit probablement d'un avantage concurrentiel pour Google et cela pourrait faciliter la tâche à l'entreprise. Toutefois, les négociations se déroulent dans un contexte où les médias et autres créateurs s'inquiètent de plus en plus de l'utilisation du contenu pour former les grands modèles de langage.

Pour autant que nous sachions ce que contiennent leurs données d'apprentissage, les modèles de langage actuels ont principalement été formés à partir d'informations provenant d'Internet. Si certains modèles d'IA ne révèlent pas comment ils ont obtenu leurs données d'apprentissage, des informations sont souvent disponibles sur les ensembles de données ou les robots d'indexation utilisés. Le prix des ensembles de données d'entraînement varie en fonction du fournisseur, de la taille et du contenu de l'ensemble de données. D'autres jeux de données, comme LAION, sont libres et entièrement gratuits et sont utilisés par des modèles tels que Stable Diffusion.

Les développeurs d'IA mettent également souvent en place des robots d'indexation qui collectent des données sur Internet afin d'entraîner de leurs modèles d'IA. (Les fournisseurs d'IA doivent toujours embaucher des personnes pour vérifier, étiqueter et parfois nettoyer les données d'entraînement, ce qui augmente considérablement les coûts d'exploitation). Mais cette pratique est aujourd'hui confrontée à des défis majeurs. D'une part, plusieurs entreprises, dont le New York Times, empêchent les robots d'accéder à leurs données. D'autre part, plusieurs organisations affirment que la formation sur leurs données constitue une violation du droit d'auteur.

Selon les analystes, le procès du New York Times représente un défi existentiel pour les activités d'OpenAI. Si le média gagne le procès, OpenAI pourrait non seulement devoir des milliards de dollars en guise de dommages-intérêts, mais aussi être forcé de détruire toutes ses données de formation comprenant des travaux de l'éditeur. Cette tâche pourrait être coûteuse et compliquée. Dans l'immédiat, cependant, le procès complique les efforts d'OpenAI pour conclure des accords avec l'industrie des médias. Un porte-parole d'OpenAI a déclaré récemment que l'entreprise était surprise et déçue que le New York Times ait intenté une action en justice.

OpenAI a ajouté qu'il espère néanmoins trouver un moyen mutuellement bénéfique de travailler avec le New York Times. « Nous respectons les droits des créateurs et des propriétaires de contenus et nous nous engageons à travailler avec eux pour qu'ils bénéficient de la technologie de l'IA et de nouveaux modèles de revenus », note un communiqué de l'entreprise. Selon Rubin, la situation actuelle est très différente de celles auxquelles les éditeurs ont été confrontés dans le passé avec les moteurs de recherche et les médias sociaux. Rubin a déclaré que le contenu des articles de presse est utilisé pour entraîner un modèle, pas pour reproduire le contenu.

Mais le Times n'est pas d'accord avec la position d'OpenAI, estimant que ChatGPT copie carrément le travail de ses journalistes sans payer pour cela. Dans son procès, l'éditeur a montré des exemples dans lesquels ChatGPT régurgitait des paragraphes entiers de texte presque mot à mot du New York Times. L'éditeur affirme que c'est la preuve qu'OpenAI a utilisé les données du New York Times. « Si Microsoft et OpenAI veulent utiliser notre travail à des fins commerciales, la loi exige qu'ils obtiennent d'abord notre autorisation. Ils ne l'ont pas fait », a déclaré le New York Times dans un communiqué. Certains ont toutefois critiqué la position du New York Times.

Et vous ?

Quel est votre avis sur le sujet ?
Que pensez-vous du montant proposé par OpenAI aux éditeurs de presse pour accéder à leurs contenus ?
Pensez-vous que ce montant est dérisoire ? Ces accords profiteront-ils davantage à OpenAI qu'aux éditeurs ?
Ces accords de licence risquent-ils d'augmenter les coûts de développement des grands modèles de langage ?

Voir aussi

Le New York Times exige qu'OpenAI supprime toutes ses instances GPT dans une poursuite relative au droit d'auteur, affirmant que des millions de ses articles ont été utilisés pour former ChatGPT

George R.R, romancier de "Game of Thrones", John Grisham et d'autres grands auteurs américains poursuivent OpenAI pour des questions de droits d'auteur

OpenAI et Meta accusés d'avoir utilisé les œuvres de Sarah Silverman et de deux auteurs sans leur consentement, comme données d'entraînements de leurs IA. Les plaintes de ce type se multiplient

Une erreur dans cette actualité ? Signalez-nous-la !

Avatar de OrthodoxWindows
Membre émérite https://www.developpez.com
Le 08/04/2024 à 10:48
Tant que GPT-4 ne bloque pas les publicités lors de son visionnage, pour Youtube ça ne devrait pas poser de problèmes.

8  0 
Avatar de Leruas
Membre éclairé https://www.developpez.com
Le 08/04/2024 à 21:24
Heureusement qu'ils n'ont pas entrainé GPT-4 sur des vidéos TikTok
3  0 
Avatar de Jules34
Membre expérimenté https://www.developpez.com
Le 08/04/2024 à 11:44
Personne se dit qu'en s'entrainant sur youtube un modele d'IA à plus de chambre de finir par ressembler au cousin dégénéré du moyen-âge qu'à un Leonard de Vinci 3.0 ?

L'IA entrainé à Pewdiepie c'est le début la fin des temps.
3  2 
Avatar de maxtal
Membre actif https://www.developpez.com
Le 10/04/2024 à 15:11
si ils viraient leurs brides idéologiques ça irait peut être déjà un peu plus loin
1  0 
Avatar de ManPaq
Membre averti https://www.developpez.com
Le 23/01/2024 à 5:25
C'est le même problème qui a conduit Google à payer une amende de 500M$ en 21:
La directive européenne de 2019 impose aux plates-formes et aux GAFA (tel YouTube) de conclure avec les ayants droit des accords pour les rémunérer lorsqu’un utilisateur ou les algorithmes du système postent une œuvre (un texte, une chanson, un film…) sur lesquels ces ayants-droit ont des droits. Si la plate-forme ou le géant du net ne concluent pas un accord juste, ils encourent des poursuites pour non-respect de ces droits voisins du fait de la publication d’œuvres protégées sur leur réseau. Les plates-formes en ligne doivent en outre rémunérer les éditeurs de presse dont elles republient les contenus.Contenu soumis à la licence CC-BY-SA 4.0. Source : Article Droits voisins du droit d'auteur en France de Wikipédia en français :auteurs.
0  0 
Avatar de irrmichael
Membre du Club https://www.developpez.com
Le 28/02/2024 à 22:54
c'est un peu gros non?
0  0 
Avatar de Matthieu Vergne
Expert éminent https://www.developpez.com
Le 29/02/2024 à 2:24
Plus c'est gros, plus ça passe. C'est un principe de base. {^_^}
0  0 
Avatar de TJ1985
Membre chevronné https://www.developpez.com
Le 13/04/2024 à 8:38
Citation Envoyé par impopia Voir le message
Évidemment que, lorsque l'"IA" s'inspire de tout contenu digital présent sur Internet ou ailleurs, il ne peut pas y avoir lieu de "générer" qqch si ce n'est pas de copier des morceaux qu'elle a appris et de les mettre ensemble. Vous ne verrez jamais quelque chose de vraiment nouveau, il y aura toujours des morceaux copiés mis ensemble.
Dans quelle mesure sommes-nous vraiment libres de nos créations, qu'est-ce qui nous distingue fondamentalement de ces systèmes, hormis le volume d'apprentissage ?
Sûr ce point, il faut reprendre les chiffres de Yann LeCun. Un gosse de quatre ans ridiculise en masse d'information acquise n'importe quel "grand modèle" d'aujourd'hui. Et il continue à apprendre à chaque instant, lui...
0  0 
Avatar de impopia
Membre régulier https://www.developpez.com
Le 13/04/2024 à 8:19
Évidemment que, lorsque l'"IA" s'inspire de tout contenu digital présent sur Internet ou ailleurs, il ne peut pas y avoir lieu de "générer" qqch si ce n'est pas de copier des morceaux qu'elle a appris et de les mettre ensemble. Vous ne verrez jamais quelque chose de vraiment nouveau, il y aura toujours des morceaux copiés mis ensemble. Donc techniquement c'est une géante "violation des droits d'auteur", même s'il peut s'agir de contenu "libre" qui est utilisé. S'il n'y avait pas ce contenu libre et que tout était protégé par des droit d'auteur, pourrait-on parler d'IA du point de vue légal ?...
0  1