IdentifiantMot de passe
Loading...
Mot de passe oublié ?Je m'inscris ! (gratuit)

Vous êtes nouveau sur Developpez.com ? Créez votre compte ou connectez-vous afin de pouvoir participer !

Vous devez avoir un compte Developpez.com et être connecté pour pouvoir participer aux discussions.

Vous n'avez pas encore de compte Developpez.com ? Créez-en un en quelques instants, c'est entièrement gratuit !

Si vous disposez déjà d'un compte et qu'il est bien activé, connectez-vous à l'aide du formulaire ci-dessous.

Identifiez-vous
Identifiant
Mot de passe
Mot de passe oublié ?
Créer un compte

L'inscription est gratuite et ne vous prendra que quelques instants !

Je m'inscris !

« Il est impossible de créer des outils comme ChatGPT sans contenus sous copyright », selon OpenAI
Qui suscite des réactions dont celles de fermer le service ou de l'amener à rémunérer les auteurs

Le , par Patrick Ruiz

7PARTAGES

8  0 
OpenAI vient de reconnaître qu’il est impossible de créer des outils comme ChatGPT sans s’appuyer sur des contenus sous copyright. Le tableau ravive le débat sur la violation des droits d’auteurs. En effet, OpenAI a suspendu le compte de ByteDance pour usage des données de GPT aux fins d’entraînement d’un modèle d’intelligence artificielle concurrent. En droite ligne avec cette décision d’OpenAI, deux solutions émergent des réactions des internautes. Primo, des observateurs demandent l’arrêt du service. Deuxio, d’autres sont plutôt d’avis qu’OpenAI doit rémunérer les auteurs des contenus sous copyright.

« Nous pensons que les outils d'intelligence artificielle sont à leur summum lorsqu'ils intègrent et représentent toute la diversité et l'étendue de l'intelligence et de l'expérience humaines. Pour ce faire, les technologies d'IA de nos jours requièrent une grande quantité de données d'entraînement et de calcul, car les modèles examinent, analysent et apprennent des modèles et des concepts qui émergent de milliards de milliards de mots et d'images. Les grands modèles de langage d'OpenAI, y compris ChatGPT, sont développés à l'aide de trois sources principales de données d'entraînement : (1) informations disponibles publiquement sur Internet, (2) des informations que nous utilisons sous licence et (3) des informations fournies par nos utilisateurs ou nos formateurs humains. Étant donné que le droit d'auteur couvre aujourd'hui pratiquement toutes les formes d'expression humaine - y compris les articles de blog, les photographies, les messages de forum, etc. y compris les articles de blog, les photographies, les messages de forum, les bouts de code de logiciel et les documents gouvernementaux - il serait impossible d’entraîner les meilleurs modèles d'IA d'aujourd'hui sans utiliser des documents protégés par le droit d'auteur. Limiter les données d'entraînement aux livres et dessins du domaine public et aux dessins créés il y a plus d'un siècle pourrait donner lieu à une expérience intéressante, mais ne permettrait pas d'obtenir des systèmes d'IA répondant aux besoins des citoyens d'aujourd'hui », répond OpenAI dans le cadre d’un questionnaire de la Chambre des Lords du Royaume-Uni.

Pour certains internautes, l’analogie à extraire de la sortie d’OpenAI relève de l’évidence : « Il m'est impossible de devenir multimillionnaire sans braquer une banque, je devrais donc être autorisé à braquer des banques. »


C’est la raison pour laquelle le New York Times a exigé qu’OpenAI supprime toutes ses instances GPT dans une poursuite relative au droit d’auteur

La plainte cite plusieurs exemples de ChatGPT récitant des extraits de journalistes du New York Times presque entièrement mot pour mot. Un exemple cité dans les documents judiciaires est une enquête en cinq parties sur l'industrie des taxis à New York, publiée en 2019. Le Times affirme que son enquête a porté sur 600 entretiens, plus de 100 demandes de dossiers et l'examen de milliers de pages de documents tels que des relevés bancaires.

« OpenAI n'a joué aucun rôle dans la création de ce contenu, mais avec un minimum d'incitations, il en récitera de grandes parties textuellement », indique la plainte.


La poursuite allègue qu'il est facile d'amener des systèmes animés par GPT à proposer du contenu qui est normalement protégé par le mur de monétisation du Times. La poursuite montre un certain nombre d'exemples de GPT-4 reproduisant de grandes sections d'articles presque textuellement. La poursuite comprend des captures d'écran de ChatGPT recevant le titre d'un article du New York Times et demandant le premier paragraphe, ce qu'il livre. Obtenir le texte qui suit est apparemment aussi simple que de demander à plusieurs reprises le paragraphe suivant.

ChatGPT a apparemment comblé cette lacune entre la préparation de ce procès et le présent. En entrant certaines des invites affichées dans la poursuite, il est désormais indiqué « Je recommande de consulter le site Web du New York Times ou d'autres sources réputées », bien que nous ne puissions pas exclure que le contexte fourni avant cette invite puisse produire du matériel protégé par le droit d'auteur.

Mais toutes les lacunes n’ont pas été comblées. La combinaison affiche également les résultats de Bing Chat, rebaptisé depuis Copilot. Nous avons pu vérifier que demander le premier paragraphe d’un article spécifique du Times faisait en sorte que Copilot reproduisait le premier tiers de l’article.

La poursuite rejette les tentatives visant à justifier cela comme une forme d’utilisation équitable. « Publiquement, les accusés insistent sur le fait que leur conduite est protégée en tant « qu'usage loyal » parce que leur utilisation sans licence de contenu protégé par le droit d'auteur pour former des modèles GenAI sert un nouvel objectif « transformateur » », note la poursuite. « Mais il n'y a rien de "transformateur" dans le fait d'utiliser le contenu du Times sans paiement pour créer des produits qui remplacent le Times et lui volent du public ».

La presse avait déjà proposé la deuxième solution qui est qu’elle perçoive une rémunération d’OpenAI

Depuis des années, des entreprises technologiques telles qu'Open AI utilisent librement des articles de presse pour constituer des ensembles de données qui permettent à leurs modèles d’IA d'apprendre à reconnaître et à répondre avec fluidité aux questions humaines sur le monde. Mais alors que la quête pour développer des modèles d'IA de pointe est devenue de plus en plus frénétique, les éditeurs de journaux et autres propriétaires de données exigent une part du marché potentiellement gigantesque de l'IA générative, qui devrait atteindre 1300 millions de dollars d'ici à 2032.


Pour de nombreux experts du secteur de la technologie, ChatGPT pourrait changer à jamais l'édition et le journalisme. Ainsi, certains types de journalisme, comme les simples articles de sport et d'affaires, seraient particulièrement sensibles à l'automatisation. ChatGPT pourrait être la technologie numérique la plus importante à avoir un impact sur les éditeurs depuis les années 1980. Le chatbot créé par le laboratoire d'intelligence artificielle (IA) OpenAI peut répondre à des questions complexes et s'appuyer sur des recherches secondaires pour rédiger des textes « originaux ». Si l'information se trouve sur Internet, ChatGPT peut produire du contenu avec.

Mais alors que les chercheurs plongent dans le nouveau monde courageux des chatbots d'IA avancés, Springer Nature a déclaré en début d’année que les éditeurs doivent reconnaître leurs utilisations légitimes et établir des directives claires pour éviter les abus. L'entreprise a annoncé que des logiciels tels que ChatGPT ne pouvaient pas être crédités en tant qu'auteurs dans les articles publiés dans ses milliers de revues. Toutefois, Springer affirme qu'elle n'a aucun problème à ce que les scientifiques utilisent l'IA pour les aider à rédiger ou à générer des idées pour la recherche. Cela dit, cette contribution doit être correctement divulguée par les auteurs.

Deux auteurs américains ont poursuivi OpenAI devant le tribunal fédéral de San Francisco, affirmant dans un recours collectif proposé que la société avait abusé de leurs travaux pour l’entraînement de son populaire système d'intelligence artificielle générative ChatGPT. Dans le même temps, l’union européenne prépare une législation qui obligerait les outils d’intelligence artificielle comme ChatGPT à divulguer le matériel protégé par le droit d’auteur utilisé dans la construction de leurs systèmes, selon un nouveau projet de loi qui serait le premier ensemble de règles complet de l’Occident régissant le déploiement de l’IA.

Cette obligation permettrait aux éditeurs et aux créateurs de contenu de disposer d’une nouvelle arme pour demander une part des bénéfices lorsque leurs œuvres sont utilisées comme matériau source pour le contenu généré par l’IA par des outils comme ChatGPT. Au total, 561 des 1 149 éditeurs de presse interrogés par l'archive "homepages.news" ont demandé à OpenAI, Google AI ou l'organisation à but non lucratif Common Crawl de cesser de scanner leurs sites, ce qui représente 48,8 % de l'échantillon.

Ces trois organisations parcourent systématiquement les sites web pour recueillir les informations qui alimentent les robots de conversation génératifs tels que ChatGPT d'OpenAI et Bard de Google. Les éditeurs peuvent demander que leur contenu soit exclu par le biais de la convention robots.txt. Le système open source géré par "homepages.news" rassemble le fichier robots.txt de chaque site d'actualités deux fois par jour. Cette page est continuellement mise à jour avec les derniers résultats. Voici les totaux actuels pour chaque robot d'exploration.


Depuis le mois d'août, au moins 535 organes de presse - dont le New York Times, Reuters et le Washington Post - ont installé un bloqueur qui empêche que leur contenu soit collecté et utilisé pour former le ChatGPT. Désormais, les discussions portent sur le paiement des éditeurs pour que le chatbot puisse proposer des liens vers des articles individuels dans ses réponses, ce qui profiterait aux journaux de deux manières : en leur fournissant un paiement direct et en augmentant potentiellement le trafic vers leurs sites web.

En juillet, OpenAI a signé un contrat de licence pour le contenu de l’Associated Press, qui lui servira à entraîner ses modèles d’IA. Selon deux sources proches des discussions, qui ont requis l’anonymat pour parler de sujets délicats, cette idée a également été évoquée dans les négociations actuelles, mais l’accent a été mis sur la possibilité de montrer des articles dans les réponses de ChatGPT.

Source : Parlement du Royaume-Uni

Et vous ?

Quelle solution préconiseriez-vous en tant que décideur compte tenu du tableau actuel en matière d’intelligence artificielle générative ? Ordonner la fermeture desdits services ? Les amener à rémunérer les auteurs ?

Voir aussi :

Le New York Times envisage d'initier une action en justice contre OpenAI pour l'obliger à effacer les données d'entraînement de ChatGPT, le média dit non à l'usage de son contenu sans son accord

Musk s'engage à poursuivre Microsoft en justice, l'accusant de s'être « entraînée illégalement avec les données de Twitter », tandis qu'elle abandonne l'intégration de Twitter de sa plateforme pub

Des auteurs de livres poursuivent OpenAI en justice, affirmant que la société a abusé de leurs travaux pour former ChatGPT. Selon eux, les livres sont un « ingrédient clé » du chabot IA

Une erreur dans cette actualité ? Signalez-nous-la !

Avatar de OrthodoxWindows
Membre émérite https://www.developpez.com
Le 08/04/2024 à 10:48
Tant que GPT-4 ne bloque pas les publicités lors de son visionnage, pour Youtube ça ne devrait pas poser de problèmes.

8  0 
Avatar de Leruas
Membre éclairé https://www.developpez.com
Le 08/04/2024 à 21:24
Heureusement qu'ils n'ont pas entrainé GPT-4 sur des vidéos TikTok
3  0 
Avatar de Jules34
Membre expérimenté https://www.developpez.com
Le 08/04/2024 à 11:44
Personne se dit qu'en s'entrainant sur youtube un modele d'IA à plus de chambre de finir par ressembler au cousin dégénéré du moyen-âge qu'à un Leonard de Vinci 3.0 ?

L'IA entrainé à Pewdiepie c'est le début la fin des temps.
3  2 
Avatar de maxtal
Membre actif https://www.developpez.com
Le 10/04/2024 à 15:11
si ils viraient leurs brides idéologiques ça irait peut être déjà un peu plus loin
1  0 
Avatar de ManPaq
Membre averti https://www.developpez.com
Le 23/01/2024 à 5:25
C'est le même problème qui a conduit Google à payer une amende de 500M$ en 21:
La directive européenne de 2019 impose aux plates-formes et aux GAFA (tel YouTube) de conclure avec les ayants droit des accords pour les rémunérer lorsqu’un utilisateur ou les algorithmes du système postent une œuvre (un texte, une chanson, un film…) sur lesquels ces ayants-droit ont des droits. Si la plate-forme ou le géant du net ne concluent pas un accord juste, ils encourent des poursuites pour non-respect de ces droits voisins du fait de la publication d’œuvres protégées sur leur réseau. Les plates-formes en ligne doivent en outre rémunérer les éditeurs de presse dont elles republient les contenus.Contenu soumis à la licence CC-BY-SA 4.0. Source : Article Droits voisins du droit d'auteur en France de Wikipédia en français :auteurs.
0  0 
Avatar de irrmichael
Membre du Club https://www.developpez.com
Le 28/02/2024 à 22:54
c'est un peu gros non?
0  0 
Avatar de Matthieu Vergne
Expert éminent https://www.developpez.com
Le 29/02/2024 à 2:24
Plus c'est gros, plus ça passe. C'est un principe de base. {^_^}
0  0 
Avatar de TJ1985
Membre chevronné https://www.developpez.com
Le 13/04/2024 à 8:38
Citation Envoyé par impopia Voir le message
Évidemment que, lorsque l'"IA" s'inspire de tout contenu digital présent sur Internet ou ailleurs, il ne peut pas y avoir lieu de "générer" qqch si ce n'est pas de copier des morceaux qu'elle a appris et de les mettre ensemble. Vous ne verrez jamais quelque chose de vraiment nouveau, il y aura toujours des morceaux copiés mis ensemble.
Dans quelle mesure sommes-nous vraiment libres de nos créations, qu'est-ce qui nous distingue fondamentalement de ces systèmes, hormis le volume d'apprentissage ?
Sûr ce point, il faut reprendre les chiffres de Yann LeCun. Un gosse de quatre ans ridiculise en masse d'information acquise n'importe quel "grand modèle" d'aujourd'hui. Et il continue à apprendre à chaque instant, lui...
0  0 
Avatar de impopia
Membre régulier https://www.developpez.com
Le 13/04/2024 à 8:19
Évidemment que, lorsque l'"IA" s'inspire de tout contenu digital présent sur Internet ou ailleurs, il ne peut pas y avoir lieu de "générer" qqch si ce n'est pas de copier des morceaux qu'elle a appris et de les mettre ensemble. Vous ne verrez jamais quelque chose de vraiment nouveau, il y aura toujours des morceaux copiés mis ensemble. Donc techniquement c'est une géante "violation des droits d'auteur", même s'il peut s'agir de contenu "libre" qui est utilisé. S'il n'y avait pas ce contenu libre et que tout était protégé par des droit d'auteur, pourrait-on parler d'IA du point de vue légal ?...
0  1