Les créateurs demandent aux géants de la technologie de reconnaître leurs « pratiques controversées » en matière de données et de payer pour toutes les données d'entraînement de l'IA

Le 10 février 2025 à 13:35, par Mathis Lucas

58PARTAGES

Les créateurs demandent aux géants de la technologie de reconnaître leurs « pratiques controversées » en matière de données et de payer pour toutes les données d'entraînement à l'IA

Les créateurs et les éditeurs continuent de crier leur ras-le-bol face au pillage systématique de leurs contenus pour l'entraînement de modèles d'IA. Ils ont rejeté une nouvelle fois l'argument de « l'usage équitable » avancé par les entreprises et exigent que ces dernières paient pour l'accès aux données. C'est ce qui ressort d'une récente réunion d'une commission britannique concernant l'exploitation de contenus protégés par le droit d'auteur par des sociétés d'IA sans autorisation ni paiement. Mais les entreprises d'IA semblent peu enclines à payer pour cet accès et les contrats conclus par OpenAI avec les éditeurs sont controversés.

L'érosion du droit d'auteur au profit de l'IA pourrait avoir un impact dévastateur

Une commission mixte de députés britanniques a récemment entendu des éditeurs et un compositeur irrités par l'exploitation incontrôlée du matériel protégé par le droit d'auteur par l'industrie technologique. Elle a demandé au compositeur germano-britannique Max Richter comment il pouvait savoir si des « acteurs de mauvaise foi » utilisaient ses œuvres pour entraîner des modèles d'IA. « Il n'y a vraiment rien que je puisse faire », a-t-il répondu aux députés.

« Il existe quelques modèles d'IA musicaux, et il est parfaitement facile de leur faire générer un morceau de musique qui me ressemble étrangement. Cela ne serait pas possible si l'IA n'avait pas récupéré mes œuvres sans me demander mon avis et sans payer pour cela. C'est ce qui se passe à grande échelle. C'est manifestement arrivé à tous les artistes dont le travail se trouve sur Internet », s'est plaint le musicien Max Richter devant les parlementaires.

Il n'est pas le premier à tirer la sonnette d'alarme sur l'impact potentiellement dévastateur de l'IA sur les créateurs et les éditeurs. Les plaintes se sont multipliées ces dernières années. Lors de son témoignage, Max Richter a déclaré que les conséquences pour les musiciens et les compositeurs créatifs seraient désastreuses :

Envoyé par Max Richter

« On va assister à une banalisation de la culture musicale, car le matériel automatisé commence à supplanter les créateurs humains, et on va également assister à un appauvrissement de ces derniers. Il convient de rappeler que le secteur de la musique au Royaume-Uni est une véritable réussite.

Il a généré un revenu de 7,6 milliards de livres sterling l'année dernière et emploie plus de 200 000 personnes. L'impact est donc considérable. Si nous permettons l'érosion du droit d'auteur, qui est vraiment la façon dont la valeur est créée dans le secteur de la musique, alors nous serons dans une position où il n'y aura plus d'artistes à l'avenir.

Meta a récemment été accusé d'avoir téléchargé plus de 81,7 téraoctets de livres piratés pour enrichir les modèles d'IA utilisés dans ses projets. Cette révélation a suscité un tollé sur la toile et a relancé le débat sur l’éthique de l’entraînement des modèles d'IA et sur la protection des droits d’auteur.

Meta n’est pas la seule entreprise à être pointée du doigt pour de telles pratiques. OpenAI, Google, Microsoft... sont également accusés d’entraîner leurs modèles d'IA sur des œuvres protégées sans l’accord des auteurs. Le principal enjeu réside dans le manque de transparence de ces entreprises sur leurs sources de données.

Les créateurs se plaignent de l'absence de cadres juridiques pour les protéger

Une plainte allègue également que Mark Zuckerberg, PDG de Meta, a donné son feu vert pour que le modèle d'IA open source LLama de l'entreprise soit entraîné à partir d'œuvres protégées par le droit d'auteur. Meta est accusé d'avoir enfreint les droits d'auteur en utilisant des documents sans l'autorisation des créateurs. Meta maintient que l'utilisation de ces œuvres dans le cadre de l'entraînement de grand modèle de langage (LLM) Llama relève de l'usage loyal.

Matt Rogerson, directeur de la politique publique mondiale et de la stratégie de plateforme au Financial Times, affirme que les créateurs et les éditeurs se sentent de plus en plus désarmés face à ce pillage des données. Ils estiment qu'ils ne peuvent tout simplement pas y faire face : « nous ne pouvons faire face qu'à ce que nous voyons en face de nous, à savoir que les gens prennent notre contenu, l'utilisent pour la formation, l'utilisent de manière substitutive ».

Selon Matt Rogerson, le risque, si la situation perdure, est de voir les industries de la création et de l'information se vider de leur substance. Matt Rogerson a indiqué qu'une étude commandée par le Financial Times a révélé que 1 000 robots uniques récupéraient les données de 3 000 sites Web d'éditeurs.

« Nous ne savons pas avec qui ces robots travaillent, mais nous savons qu'ils travaillent avec des sociétés d'IA. En moyenne, les éditeurs ont 15 bots qui les ciblent chacun dans le but d'extraire des données pour des modèles d'IA, et ils revendent ces données à des plateformes d'IA pour de l'argent », a-t-il déclaré.

James Smith, ancien collaborateur de Google, a déclaré qu'une grande partie des dommages causés par l'exploration de données avait probablement déjà été faite. James Smith est cofondateur et PDG de Human Native AI, une plateforme pour contrôler et rémunérer les œuvres créatives utilisées pour former l'IA.

« Le péché originel, si l'on peut l'appeler ainsi, a été déjà commis. La question est de savoir comment aller de l'avant. J'aimerais que le gouvernement s'efforce davantage de soutenir l'octroi de licences en tant que modèle de monétisation alternatif viable pour Internet à l'ère de ces nouveaux agents d'IA », a-t-il déclaré.

Les entreprises sont peu enclines à payer une valeur pour accéder aux données

Les auteurs et les créateurs demandent aux entreprises d'IA de respecter leurs droits et de payer pour l’utilisation de leurs œuvres pour l'entraînement des modèles d'IA. Ils dénoncent l’injustice et le piratage dont ils sont victimes, alors que leurs revenus sont en baisse. Ils espéraient une résolution à l'amiable, mais les entreprises se sont montrées réticentes et ont donc été poursuivies en justice par les détenteurs de droits d'auteur.

Matt Rogerson craint que les négociations n'aboutissent pas. En outre, il est également sceptique quant à l'adoption d'une loi ou d'une réglementation forçant les entreprises d'IA à rémunérer les créateurs et les éditeurs, etc. pour l'utilisation de leurs œuvres. Matt Rogerson a déclaré que les entreprises technologiques pourraient accepter des marges plus faibles, mais que c'était quelque chose que les gouvernements semblaient réticents à mettre en œuvre.

Envoyé par Matt Rogerson

Le problème est que nous ne pouvons pas voir qui a volé notre contenu. Nous en sommes au stade où ces très grandes entreprises, qui réalisent habituellement des marges de 90 %, pourraient être amenées à accepter des marges plus faibles, ce qui ne manquera pas de perturber leurs investisseurs.

Mais cela ne signifie pas qu'elles ne doivent pas le faire. C'est juste une question de bien et de mal et d'orientation du débat. Malheureusement, le gouvernement l'a lancé en pensant qu'on ne peut pas réduire la marge de ces grandes entreprises technologiques ; sinon, elles ne construiront pas de centre de données.

Selon Sajeeda Merali, directrice générale de la Professional Publishers Association, si le secteur de l'IA fait valoir que la transparence sur les données d'entraînement serait commercialement sensible, sa véritable préoccupation est que « les éditeurs demandent ensuite une valeur équitable en échange de ces données ».

Par ailleurs, les éditeurs craignent également d'être pénalisés dans les résultats des moteurs de recherche s'ils refusent de partager les données pour l'entraînement. En 2024, plus de 13 500 artistes se sont mobilisés pour dénoncer l'exploitation de leurs œuvres par les entreprises d'IA sans leur consentement.

Dans une déclaration, ils ont condamné « l'utilisation sans licence d'œuvres créatives » pour développer des systèmes d'IA, estimant que cela constitue une menace majeure et injuste pour les moyens de subsistance des personnes à l'origine de ces œuvres et que cela ne doit pas être autorisé. Cette initiative met en lumière des pratiques controversées dans l'industrie technologique et ouvre un débat essentiel sur les droits d'auteur à l'IA générative.

L'année dernière, Dan Conway, PDG de l'association britannique des éditeurs, a déclaré à la commission des communications et du numérique de la Chambre des Lords que les grands modèles de langage portent atteinte aux contenus protégés par le droit d'auteur à une « échelle absolument massive ».

Certaines entreprises d'IA ont signé des accords controversés avec des éditeurs

Plusieurs entreprises technologiques ont conclu dernièrement des accords avec des éditeurs et des auteurs pour utiliser leurs œuvres dans le cadre de l'entraînement de modèles d'IA. Toutefois, ces accords suscitent des débats au sein de la communauté des auteurs et des éditeurs, notamment concernant la transparence et une rémunération équitable pour l'utilisation de leurs œuvres dans le développement et l'entraînement des grands modèles (LLM) de lange.

La maison d'édition HarperCollins, par exemple, a proposé à certains de ces auteurs un contrat avec une société d'IA, dont l'identité reste confidentielle, permettant à cette dernière d'utiliser leurs œuvres publiées pour entraîner son modèle d'IA générative. Les auteurs concernés se voient offrir 2 500 dollars par livre sélectionné pour une période de trois ans. OpenAI a également signé des accords avec le journal Le Monde et d'autres éditeurs, notamment :

Associated Press (AP) : en juillet 2024, OpenAI a signé un accord de licence avec l'agence de presse américaine Associated Press, lui permettant d'exploiter toutes les dépêches publiées depuis 1985 ;
News Corp : OpenAI a établi un accord pluriannuel avec News Corp, la société mère de publications telles que The Wall Street Journal, The Times, et The Sunday Times. Cet accord permet à OpenAI d'utiliser le contenu de ces publications pour entraîner ses modèles d'IA ;
Financial Times : OpenAI a également conclu un accord de licence avec le Financial Times de Londres, élargissant ainsi sa liste de partenaires éditoriaux dont elle acquiert le contenu.

Les dirigeants d'OpenAI affirment que ces partenariats illustrent la volonté de l'entreprise de collaborer avec des éditeurs pour enrichir ses modèles d'IA tout en respectant les droits d'auteur et en soutenant le journalisme de qualité. Mais ces accords sont hautement controversés dans la communauté.

Outre le manque de transparence, les critiques ont également exprimé leurs préoccupations, notamment concernant les implications éthiques et environnementales de l'utilisation de l'IA. Ils s'inquiètent également de l'impact potentiel de ces partenariats sur le trafic et les revenus des éditeurs.

Et vous ?

Quel est votre avis sur le sujet ?

Voir aussi

Plus de 13 500 artistes se mobilisent pour dénoncer l'exploitation de leurs œuvres par les entreprises d'IA sans leur consentement, l'initiative met en lumière les pratiques controversées dans l'industrie

Face à l'essor des livres générés par IA, l'association d'écrivains Authors Guild lance la certification "Human Authored", un label pour garantir qu'une œuvre est 100 % humaine

Une plainte affirme que Mark Zuckerberg a autorisé l'équipe LLama de Meta à entraîner le modèle d'IA à partir d'œuvres protégées par le droit d'auteur, l'équipe a utilisé la bibliothèque controversée LibGen

Vous avez lu gratuitement 4 288 articles depuis plus d'un an.
Soutenez le club developpez.com en souscrivant un abonnement pour que nous puissions continuer à vous proposer des publications.

Une erreur dans cette actualité ? Signalez-nous-la !

Votre nom : Votre e-mail :

Décrivez l'erreur que vous souhaitez porter à notre connaissance :