La presse écrite veut être payée pour les articles utilisés pour alimenter l'outil d'IA ChatGPT,

Elle exige une part du marché qui devrait atteindre 1300 million de dollars d'ici à 2032

Le 25 octobre 2023 à 08:24, par Bruno

183PARTAGES

La presse écrite veut être payée pour les articles utilisés pour alimenter l’outil d’IA ChatGPT
elle exige une part du marché qui devrait atteindre 1300 million de dollars d'ici à 2032

Les journaux demandent une rémunération pour leurs données, qui sont précieuses à l’ère de l’IA. Certains ont installé un bloqueur pour empêcher que leur contenu soit collecté et utilisé par ChatGPT, l’outil d’IA construit par OpenAI. D’autres sont en pourparlers avec OpenAI pour que le chatbot affiche des liens vers leurs articles dans ses réponses. D’autres sources de données, comme Reddit et Twitter, cherchent également à monétiser leurs données ou à restreindre leur accès. Les analystes soulignent l’urgence et l’incertitude qui entourent l’avenir de l’information en ligne face à la transformation de l’Internet par l’IA générative.

Depuis des années, des entreprises technologiques telles qu'Open AI utilisent librement des articles de presse pour constituer des ensembles de données qui permettent à leurs modèles d’IA d'apprendre à reconnaître et à répondre avec fluidité aux questions humaines sur le monde. Mais alors que la quête pour développer des modèles d'IA de pointe est devenue de plus en plus frénétique, les éditeurs de journaux et autres propriétaires de données exigent une part du marché potentiellement gigantesque de l'IA générative, qui devrait atteindre 1300 millions de dollars d'ici à 2032.

Pour de nombreux experts du secteur de la technologie, ChatGPT pourrait changer à jamais l'édition et le journalisme. Ainsi, certains types de journalisme, comme les simples articles de sport et d'affaires, seraient particulièrement sensibles à l'automatisation. ChatGPT pourrait être la technologie numérique la plus importante à avoir un impact sur les éditeurs depuis les années 1980. Le chatbot créé par le laboratoire d'intelligence artificielle (IA) OpenAI peut répondre à des questions complexes et s'appuyer sur des recherches secondaires pour rédiger des textes « originaux ». Si l'information se trouve sur Internet, ChatGPT peut produire du contenu avec.

Mais alors que les chercheurs plongent dans le nouveau monde courageux des chatbots d'IA avancés, Springer Nature a déclaré en début d’année que les éditeurs doivent reconnaître leurs utilisations légitimes et établir des directives claires pour éviter les abus. L'entreprise a annoncé que des logiciels tels que ChatGPT ne pouvaient pas être crédités en tant qu'auteurs dans les articles publiés dans ses milliers de revues. Toutefois, Springer affirme qu'elle n'a aucun problème à ce que les scientifiques utilisent l'IA pour les aider à rédiger ou à générer des idées pour la recherche. Cela dit, cette contribution doit être correctement divulguée par les auteurs.

Deux auteurs américains ont poursuivi OpenAI devant le tribunal fédéral de San Francisco, affirmant dans un recours collectif proposé que la société avait abusé de leurs travaux pour « former » son populaire système d'intelligence artificielle générative ChatGPT. Dans le même temps, l’union européenne prépare une législation qui obligerait les outils d’intelligence artificielle comme ChatGPT à divulguer le matériel protégé par le droit d’auteur utilisé dans la construction de leurs systèmes, selon un nouveau projet de loi qui serait le premier ensemble de règles complet de l’Occident régissant le déploiement de l’IA.

Cette obligation permettrait aux éditeurs et aux créateurs de contenu de disposer d’une nouvelle arme pour demander une part des bénéfices lorsque leurs œuvres sont utilisées comme matériau source pour le contenu généré par l’IA par des outils comme ChatGPT. Au total, 561 des 1 149 éditeurs de presse interrogés par l'archive "homepages.news" ont demandé à OpenAI, Google AI ou l'organisation à but non lucratif Common Crawl de cesser de scanner leurs sites, ce qui représente 48,8 % de l'échantillon.

Ces trois organisations parcourent systématiquement les sites web pour recueillir les informations qui alimentent les robots de conversation génératifs tels que ChatGPT d'OpenAI et Bard de Google. Les éditeurs peuvent demander que leur contenu soit exclu par le biais de la convention robots.txt. Le système open source géré par "homepages.news" rassemble le fichier robots.txt de chaque site d'actualités deux fois par jour. Cette page est continuellement mise à jour avec les derniers résultats. Voici les totaux actuels pour chaque robot d'exploration.

Depuis le mois d'août, au moins 535 organes de presse - dont le New York Times, Reuters et le Washington Post - ont installé un bloqueur qui empêche que leur contenu soit collecté et utilisé pour former le ChatGPT. Aujourd'hui, les discussions portent sur le paiement des éditeurs pour que le chatbot puisse proposer des liens vers des articles individuels dans ses réponses, ce qui profiterait aux journaux de deux manières : en leur fournissant un paiement direct et en augmentant potentiellement le trafic vers leurs sites web.

En juillet, OpenAI a signé un contrat de licence pour le contenu de l’Associated Press, qui lui servira à entraîner ses modèles d’IA. Selon deux sources proches des discussions, qui ont requis l’anonymat pour parler de sujets délicats, cette idée a également été évoquée dans les négociations actuelles, mais l’accent a été mis sur la possibilité de montrer des articles dans les réponses de ChatGPT.

Les entreprises d’IA font également face à des poursuites en matière de droits d’auteur

Outre les demandes de paiement, les grandes entreprises d'IA sont confrontées à une série de poursuites en matière de droits d'auteur de la part d'auteurs de livres, d'artistes et de développeurs de logiciels qui réclament des dommages-intérêts pour infraction, ainsi qu'une part des bénéfices. En août, OpenAI, qui bénéficie du soutien de Microsoft, a demandé à un tribunal fédéral de Californie de rejeter les plaintes pour violation du droit d'auteur qui le visent depuis peu.

Les plaignants affirment que l’utilisation non autorisée de leurs données est en violation de plusieurs lois fédérales des États-Unis, dont celles sur le droit d'auteur et le DMCA (Digital Millennium Copyright Act). Mais OpenAI a contesté ces allégations et a déposé des motions de rejet dans lesquelles il demande au tribunal de Californie de rejeter toutes les plaintes sauf une.

En avril, Elon Musk a commencé à facturer 42 000 dollars pour l'accès en masse aux messages publiés sur Twitter, qui étaient auparavant gratuits pour les chercheurs, après avoir affirmé que des sociétés d'intelligence artificielle avaient illégalement utilisé les données pour entraîner leurs modèles.

La décision d'Open AI de négocier peut refléter un désir de conclure des accords avant que les tribunaux n'aient l'occasion de se prononcer sur la question de savoir si les entreprises technologiques ont une obligation légale claire de concéder des licences - et de payer pour le contenu, a déclaré James Grimmelmann, professeur de droit numérique et de l'information à l'université Cornell.

Ces mesures témoignent d'un sentiment d'urgence et d'incertitude grandissant quant à la question de savoir qui tire profit des informations en ligne. L'IA générative étant sur le point de transformer la manière dont les utilisateurs interagissent avec l'internet, de nombreux éditeurs et autres entreprises considèrent le paiement équitable de leurs données comme une question existentielle.

En ce qui concerne la presse écrite, il est compréhensible que les éditeurs cherchent à être rémunérés pour leur travail. Cependant, il est important de noter que les articles utilisés pour alimenter l’outil d’IA ChatGPT sont souvent extraits d’archives publiques et accessibles à tous. Par conséquent, il serait peu probable que les éditeurs puissent obtenir une compensation financière pour ces articles.

En fin de compte, il est important que les entreprises technologiques et les éditeurs travaillent ensemble pour trouver un terrain d’entente qui profite à toutes les parties concernées. Les éditeurs peuvent envisager d’offrir un accès gratuit à leurs archives en échange d’une reconnaissance appropriée dans les produits finaux générés par l’IA. De même, les entreprises technologiques peuvent envisager de partager une partie des bénéfices générés par ces produits avec les éditeurs.

Sources : Palewi, Genlaw, Procès-verbal

Et vous ?

À votre avis, les entreprises technologiques devraient-elles être tenues de payer pour le contenu qu’elles utilisent pour entraîner leurs modèles d’IA ?

Pensez-vous que les éditeurs ont le droit de réclamer une compensation financière pour les articles extraits d’archives publiques et accessibles à tous ?

Comment les entreprises technologiques et les éditeurs peuvent-ils travailler ensemble pour trouver un terrain d’entente qui profite à toutes les parties concernées ?

Les lois actuelles sur le droit d’auteur sont-elles suffisantes pour protéger les créateurs de contenu contre l’utilisation non autorisée de leurs données par les entreprises technologiques ?

Voir aussi :

Le New York Times envisage d'initier une action en justice contre OpenAI pour l'obliger à effacer les données d'entraînement de ChatGPT, le média dit non à l'usage de son contenu sans son accord

Musk s'engage à poursuivre Microsoft en justice, l'accusant de s'être « entraînée illégalement avec les données de Twitter », tandis qu'elle abandonne l'intégration de Twitter de sa plateforme pub

Des auteurs de livres poursuivent OpenAI en justice, affirmant que la société a abusé de leurs travaux pour former ChatGPT. Selon eux, les livres sont un « ingrédient clé » du chabot IA

Vous avez lu gratuitement 4 282 articles depuis plus d'un an.
Soutenez le club developpez.com en souscrivant un abonnement pour que nous puissions continuer à vous proposer des publications.

Une erreur dans cette actualité ? Signalez-nous-la !

Votre nom : Votre e-mail :

Décrivez l'erreur que vous souhaitez porter à notre connaissance :