IdentifiantMot de passe
Loading...
Mot de passe oublié ?Je m'inscris ! (gratuit)

Vous êtes nouveau sur Developpez.com ? Créez votre compte ou connectez-vous afin de pouvoir participer !

Vous devez avoir un compte Developpez.com et être connecté pour pouvoir participer aux discussions.

Vous n'avez pas encore de compte Developpez.com ? Créez-en un en quelques instants, c'est entièrement gratuit !

Si vous disposez déjà d'un compte et qu'il est bien activé, connectez-vous à l'aide du formulaire ci-dessous.

Identifiez-vous
Identifiant
Mot de passe
Mot de passe oublié ?
Créer un compte

L'inscription est gratuite et ne vous prendra que quelques instants !

Je m'inscris !

Des auteurs de livres poursuivent OpenAI en justice, affirmant que la société a abusé de leurs travaux pour former ChatGPT.
Selon eux, les livres sont un « ingrédient clé » du chabot IA

Le , par Stéphane le calme

0PARTAGES

8  0 
Deux auteurs américains ont poursuivi OpenAI devant le tribunal fédéral de San Francisco, affirmant dans un recours collectif proposé que la société avait abusé de leurs travaux pour « former » son populaire système d'intelligence artificielle générative ChatGPT.

OpenAI, une entreprise privée soutenue par Microsoft, fait l’objet d’une plainte en nom collectif déposée par deux auteurs américains, Paul Tremblay et Mona Awad, qui affirment que la société a utilisé leurs œuvres sans autorisation pour entraîner son système d’intelligence artificielle générative ChatGPT. ChatGPT est un chatbot qui répond aux messages des utilisateurs de manière conversationnelle. Il est devenu l’application grand public la plus populaire de l’histoire en début d’année, atteignant 100 millions d’utilisateurs actifs en janvier, seulement deux mois après son lancement.

ChatGPT et d’autres systèmes d’IA générative créent du contenu en utilisant de grandes quantités de données collectées sur internet. La plainte des auteurs affirme que les livres sont un « ingrédient clé » car ils offrent les « meilleurs exemples d’écriture longue de haute qualité ». La plainte estime qu’OpenAI a incorporé dans ses données d’entraînement plus de 300 000 livres, dont certains provenant de « bibliothèques fantômes » illégales qui proposent des livres protégés par le droit d’auteur sans autorisation.

Awad est connue pour ses romans comme « 13 Ways of Looking at a Fat Girl » et « Bunny ». Tremblay est l’auteur de romans comme « The Cabin at the End of the World », qui a été adapté dans le film de Night Shyamalan « Knock at the Cabin » sorti en février. Tremblay et Awad affirment que ChatGPT peut générer des résumés « très précis » de leurs livres, ce qui indique qu’ils figurent dans sa base de données.

La plainte demande une somme indéterminée de dommages-intérêts au nom d’une classe nationale de titulaires de droits d’auteur dont les œuvres auraient été utilisées abusivement par OpenAI.

Il s’agit du dernier cas en date d’un défi juridique concernant le matériel utilisé pour entraîner des systèmes d’IA de pointe. Parmi les plaignants figurent des propriétaires de code source contre OpenAI et GitHub, la filiale de Microsoft, et des artistes visuels contre Stability AI, Midjourney et DeviantArt. Les cibles du procès ont fait valoir que leurs systèmes font un usage équitable des œuvres protégées par le droit d’auteur.


Le cas de GitHub avec Copilot

Fin juin 2022, Copilot était proposé dans le cadre d'une Preview technique sur invitation uniquement, promettant de faire gagner du temps en répondant au code des utilisateurs par ses propres suggestions intelligentes. Ces suggestions sont basées sur des milliards de lignes de code public dont les utilisateurs ont publiquement contribué à GitHub, en utilisant un système d'IA appelé Codex de la société de recherche OpenAI.

GitHub décrit Copilot comme l'équivalent IA de la « programmation en paire », dans laquelle deux développeurs travaillent ensemble sur un seul ordinateur. L'idée est qu'un développeur peut apporter de nouvelles idées ou repérer des problèmes que l'autre développeur aurait pu manquer, même si cela nécessite plus d'heures de travail.

Dans la pratique, cependant, Copilot est plutôt un outil utilitaire de gain de temps, qui intègre les ressources que les développeurs devraient autrement chercher ailleurs. Lorsque les utilisateurs saisissent des données dans Copilot, l'outil leur suggère des extraits de code à ajouter en cliquant sur un bouton. Ainsi, ils n'ont pas à passer du temps à chercher dans la documentation de l'API ou à rechercher des exemples de code sur des sites spécialisés.

Peu après le lancement de la Preview de Copilot en 2021, certains développeurs ont commencé à s'alarmer de l'utilisation d'un code public pour entraîner l'IA de l'outil. L'une des préoccupations est que si Copilot reproduit des parties suffisamment importantes du code existant, il puisse violer les droits d'auteur ou blanchir le code open source dans des utilisations commerciales sans licence appropriée. L'outil peut également reproduire des informations personnelles que les développeurs ont publiées, et dans un cas, il a reproduit le code largement cité du jeu PC Quake III Arena de 1999, y compris le commentaire du développeur John Carmack.

L’utilisateur Hogan a aussi ajouté dans son fil de discussion : « Ce qui serait vraiment drôle, c'est que les gens qui maintiennent des dépôts populaires commençaient à mettre du mauvais code exprès ».

GitHub affirme que les dérapages de Copilot sont rares. Mais un autre utilisateur de Twitter, répondant au post de Ronacher, a écrit : « Et ici nous avons la preuve directe que GitHub reproduit directement un morceau de code sous GPL, ce qui prouve que c'est un outil vraiment dangereux à utiliser dans des environnements commerciaux ». Dans une autre réponse, on peut lire : « Lol, c'est du blanchiment de code… »

Selon Matthieu Butterick, qui porte les casquettes d'écrivain, designer, développeur et avocat, Copilot soulève des questions juridiques relatives à la fois à la formation du système et à l'utilisation du système.

Aussi, il s'est associé à des avocats plaideurs en recours collectif. Ensemble, ils ont enquêté sur une poursuite potentielle contre GitHub Copilot pour violation de ses obligations légales envers les auteurs open source et les utilisateurs finaux. Au terme de cette enquête lancée en octobre, ils ont déposé une plainte contre GitHub Copilot en novembre.

La plainte, déposée au nom de quatre plaignants non identifiés ("X"), affirme que Copilot a été formé sur du code publié publiquement d'une manière qui viole la loi sur le droit d'auteur et les exigences de licence de logiciel et qu'il présente le code d'autres personnes comme le sien.

Microsoft, GitHub et OpenAI ont tenté de faire rejeter l'affaire, mais n'ont réussi qu'à se débarrasser de certaines des revendications. Le juge a laissé intacts les principaux problèmes de droit d'auteur et de licence, et a permis aux plaignants de déposer à nouveau plusieurs autres réclamations avec plus de détails.

La plainte modifiée (couvrant désormais huit chefs d'accusation au lieu de douze) retient les accusations de violation du Digital Millennium Copyright Act, de rupture de contrat (violations de licence open source), d'enrichissement déloyal et de concurrence déloyale.

GitHub a introduit le filtre Copilot appelé « Suggestions correspondant au code public »

Dans une plainte datant de juin 2023, il est indiqué qu'en juillet 2022, en réponse aux critiques publiques de Copilot, GitHub a introduit un filtre Copilot réglable par l'utilisateur appelé « Suggestions correspondant au code public » pour éviter de voir des suggestions de logiciels qui dupliquent le travail d'autres personnes.

Cependant, la plainte soutient que le filtre est essentiellement sans valeur, car il ne vérifie que les correspondances exactes et ne fait rien pour détecter la sortie qui a été légèrement modifiée. En fait, les plaignants suggèrent que GitHub essaie de s'en tirer au sujet des violations de droits d'auteur et de licence en faisant varier la sortie de Copilot afin qu'elle ne semble pas avoir été copiée exactement. De plus, le dossier du tribunal souligne que les modèles d'apprentissage automatique comme Copilot ont un paramètre qui contrôle la mesure dans laquelle la sortie varie :

En juillet 2022, en réponse aux critiques publiques concernant la mauvaise gestion par Copilot des matériaux sous licence, GitHub a introduit un filtre Copilot configurable par l'utilisateur appelé "Suggestions correspondant au code public". S'il est défini sur "bloquer", ce filtre prétend empêcher Copilot de suggérer des extraits textuels "d'environ 150*caractères" provenant de supports sous licence. Mais même en supposant que le filtre fonctionne comme annoncé, car il ne vérifie que des extraits textuels, il ne fait rien pour empêcher les sorties de Copilot qui sont des modifications des matériaux sous licence. Ainsi, en tant que moyen de respecter les droits des demandeurs et du groupe, il est essentiellement sans valeur.

Entre les mains de GitHub, la propension à de petites variations cosmétiques dans la sortie de Copilot est une fonctionnalité, pas un bogue. Ces petites variations cosmétiques signifient que GitHub peut fournir aux clients de Copilot des copies modifiées illimitées des matériaux sous licence sans jamais déclencher le filtre de code verbatim de Copilot. Les modèles d'IA comme Copilot ont souvent un paramètre appelé température qui contrôle spécifiquement la propension à la variation de leur sortie. Sur la base d'informations et de croyances, GitHub a optimisé le réglage de la température de Copilot pour produire de petites variations cosmétiques des matériaux sous licence aussi souvent que possible, afin que GitHub puisse fournir du code aux utilisateurs de Copilot qui fonctionne de la même manière que le code verbatim, tout en affirmant que Copilot uniquement produit du code verbatim 1 % du temps. Copilot est une méthode ingénieuse de piratage de logiciels.
Source : plainte

Et vous ?

Que pensez-vous des propos des auteurs ? Êtes-vous surpris de savoir que les données d'entraînement sont piochées dans des livres ?
Qu'est-ce qui devrait être fait à votre avis ?
Que pensez-vous de la réaction de GitHub avec le filtre Copilot appelé « Suggestions correspondant au code public » ?

Une erreur dans cette actualité ? Signalez-nous-la !

Avatar de totozor
Membre émérite https://www.developpez.com
Le 23/08/2023 à 7:42
Quelle est votre opinion sur l’utilisation du contenu protégé par le droit d’auteur comme données d’entraînement pour les modèles d’IA ?
Je suis assez partagé, autant je peux comprendre qu'un auteur ne veut pas qu'on puisse contourner l'achat de son livre avec une IA.
Autant les auteurs doivent aussi admettre que leurs oeuvres sont publiques et il n'y a rien de choquant qu'une IA puisse faire un résumé de celles ci. Tout comme il n'est pas choquant qu'une IA résume la pensée d'un philosophe.
Pensez-vous que les entreprises d’IA devraient payer les auteurs dont les œuvres sont utilisées comme données d’entraînement ?
Ca les rendrait instantanément non viables, ça rendrait les IA existantes complètement protégées d'éventuel nouveau concurent.
Avez-vous déjà utilisé ou interagi avec un modèle d’IA qui a généré du contenu protégé par le droit d’auteur ? Si oui, comment avez-vous réagi ?
Probablement pas mais beaucoup de monde semble impressionné par les réponses à "écrit moi un texte à la façon de ..." donc c'est monnaie courante.

Citation Envoyé par Stéphane le calme Voir le message
ChatGPT tente désormais d’éviter de répondre aux sollicitations des utilisateurs avec des formulations exactes provenant d’œuvres protégées par le droit d’auteur, selon un article technique publié par un groupe de chercheurs en IA travaillant pour le pôle recherche de ByteDance.
C'est interressant parce que si l'article dit vrai ça veut dire que ChatGPT sait identifier les textes soumis au droit d'auteur et donc ne pourra pas se défendre en disant qu'ils ont traité une tonne de données aveuglément et qu'ils sont donc incapable d'identifier les données libres de droit des autres.
4  0 
Avatar de Fagus
Membre émérite https://www.developpez.com
Le 23/08/2023 à 13:11
Citation Envoyé par totozor
autant je peux comprendre qu'un auteur ne veut pas qu'on puisse contourner l'achat de son livre avec une IA.
Autant les auteurs doivent aussi admettre que leurs oeuvres sont publiques et il n'y a rien de choquant qu'une IA puisse faire un résumé de celles ci. Tout comme il n'est pas choquant qu'une IA résume la pensée d'un philosophe.
Je suis d'accord, mais je vois deux problème légaux :
  1. que la société n'ait pas payé les documents d'entraînement . Si un particulier veut accéder à un contenu sous droit d'auteur, il n'a pas le droit de le télécharger sur un torrent. Je ne vois pas pourquoi une puissante société aurait le droit de le faire en toute impunité. Surtout que pour de nombreux contenu, une licence commerciale n'est pas la même qu'une licence d'utilisation pour un utilisateur. C'est comme si pour le prix d'un livre harry potter, j'avais le droit de faire un usage commercial du contenu...
  2. que le modèle puisse reconstituer l'oeuvre si on lui demande (pour cela il semble qu'ils prennent des mesures techniques).
2  0 
Avatar de onilink_
Membre émérite https://www.developpez.com
Le 01/09/2023 à 13:24
Il n'y a rien d'étonnant, rien ne va de toute façon avec OpenAI, à commencer par leur nom.

Ils parlent de progrès et de développement scientifique mais ChatGPT n'est qu'une interface pimpée sur une techno qui existe déjà depuis au moins 3 ans. Il n'y a aucun apport scientifique de leur coté. Il n'ont même pas inventé les transformers sur quoi sont basé les LLM qu'ils utilisent (je crois que c'est Google qui en est à l'origine).

Leur "seul" apport c'est de dépenser des sommes considérables pour entraîner des modèles gigantesques relativement "cons" mais ont des performances qui dépendent de leur taille.

Tout le reste n'est que stratégie marketing et médiatique.
Habituer les utilisateurs à un service gratuit d'une techno qui parait révolutionnaire et qui est plutôt coûteuse de leur coté (ceux qui ont utilisé GPT3 avant que ChatGPT ne sorte savent qu'il y a un prix fixé au token) puis diminuer la qualité du service gratuit pour forcer à prendre un abonnement et essayer de rendre ça lucratif de leur coté.
2  0 
Avatar de SimonKenoby
Membre averti https://www.developpez.com
Le 05/07/2023 à 17:23
Ben forcément, contrairement a ce qu'un certain Elon affirme, les livres ont beaucoup plus de valeur pour les modèles que des tweets, surtout ceux que l'on peut voir depuis qu'il a repris twitter.
1  0 
Avatar de onilink_
Membre émérite https://www.developpez.com
Le 23/08/2023 à 13:55
Je ne vois pas pourquoi il faudrait créer une exception.

Si j’apprends par cœur un livre Harry Potter et que je le re écris sur internet, j’enfreins le droit d'auteur.
Pourquoi cela devrait être différent venant d'une IA?

Si empêcher l'utilisation de texte soumis au droit d'auteur diminuerait la qualité des modèles ça montre d'autant plus l'importance:
- de continuer de protéger ces textes, je ne vois pas pourquoi on ferait des exceptions pour ces modèles que seules des multinationales peuvent se payer et entraîner et qui en plus ne sont pas ouverts. Cela montre d'autant plus la valeur de ces textes puisqu'ils ne peuvent pas s'en passer
- qu'il faudrait changer de paradigme et arrêter de faire des modèles qui ingurgitent et apprennent par cœur les données d’entraînement

C'est un aveux que ces modèles sont des machines à pomper les données malgré ce qu'ils essayent de nous vendre.
Avec les fameuses analogies de la façon dont l'humain apprends... alors que cela n'a rien, mais alors rien à voir.

Forcer les modèles d'arrêter à régurgiter les données d’entraînement serait sûrement le moyen légal le plus efficace pour régler pas mal de problèmes éthiques causés par l'IA, comme:
- le plagia des modèles génératifs, que ce soit du style ou carrément des images de certaines artistes, ou comme ici de livres ou autres textes protégés
- l'apprentissage par cœur de données privées, car contrairement a ce que l'on nous vend les données d’entraînement ne sont pas obtenues que par des sources publiques. Cela crée des problèmes de sécurité assez gros comme on peut l'imaginer
- le fait qu'on ne sait pas si une sortie peut être utilisée légalement (ex: la licence d'un code source généré qui aurait pompé des bouts soumis à la GNU GPL )

Science4All a fait pas mal de vidéos très intéressantes sur le sujet, qui est évidemment bien plus complexe que ce qu'il laisse paraitre au premier abord.

Bonus: https://thenib.com/im-a-luddite/
1  0 
Avatar de AaâÂäÄàAaâÂäÄàAaâÂäÄ
Membre éprouvé https://www.developpez.com
Le 23/08/2023 à 14:33
Citation Envoyé par Wanto Voir le message
Par contre je trouve ça assez marrant que ce soient les cherche de tiktok qui parle de plagiat, au vu du nombre de vols et du nombre de films couper en plein de parties et mis sur leur plateforme.
Comprend qui peut !
1  0 
Avatar de onilink_
Membre émérite https://www.developpez.com
Le 23/08/2023 à 16:22
Citation Envoyé par Wanto Voir le message
Le 1er point reste assez vague, les humains achetés bien des livre et utilise après ce savoir pour tout comme un usage commercial de ce qu'ils en ont retiré.
Cela reste une question intéressante, une ia devrait-il payer plus cher pour lire un livre qu'un humain.
Mais effectivement le 2em point reste logique, c'est le même problème qu'actuellement avec les extrait, reformer plein d'extrait pour avoir l'œuvre final.

Par contre je trouve ça assez marrant que ce soient les cherche de tiktok qui parle de plagiat, au vu du nombre de vols et du nombre de films couper en plein de parties et mis sur leur plateforme.
Justement, un modèle d'IA ne lit pas un livre, ça ne fonctionne en rien comme un humain.
Sinon il n'y aurait pas de problème et de débat. Mais la on parle de modèles qui régurgitent des pavés entiers mémorisés par cœur.
C'est exactement le même soucis avec les IA génératives du style stable diffusion.
1  0 
Avatar de totozor
Membre émérite https://www.developpez.com
Le 24/08/2023 à 8:14
Citation Envoyé par Fagus Voir le message
Je suis d'accord, mais je vois deux problème légaux :
  1. que la société n'ait pas payé les documents d'entraînement . Si un particulier veut accéder à un contenu sous droit d'auteur, il n'a pas le droit de le télécharger sur un torrent. Je ne vois pas pourquoi une puissante société aurait le droit de le faire en toute impunité. Surtout que pour de nombreux contenu, une licence commerciale n'est pas la même qu'une licence d'utilisation pour un utilisateur. C'est comme si pour le prix d'un livre harry potter, j'avais le droit de faire un usage commercial du contenu...
Oui c'est un peu ce que je voulais souligné mais il existe pourtant des contrexemples apparents (je n'ai pas le détail de ce qui se passe en fond), les annales de BAC français sont vendues avec des résumés et des analyses approfondies de certaines oeuvres littéraires.
Ce que je veux dire est qu'il ne me parait pas choquant que je puisse avoir un débat avec ChatGPT (même si le concept de débat avec une machine me choque) sur tel bouquin de Harry Potter par contre il ne devrait pas pouvoir me restituer son contenu (même si ce n'est pas fait de façon exacte).

On se retrouve à un moment où on (utilisateurs de chatGPT) veut une interface culturellement moderne mais qui ne se nourrirait pas des oeuvres culturelle moderne, ca qui est un paradoxe amusant à constater.
Mais ce n'est pas le seul paradoxe de notre rapport à cette IA, donc soit.
1  0 
Avatar de totozor
Membre émérite https://www.developpez.com
Le 01/09/2023 à 8:06
Citation Envoyé par Mathis Lucas Voir le message
« Les autres plaintes des auteurs [...], la violation du Digital Millennium Copyright Act (DMCA), la concurrence déloyale, la négligence et l'enrichissement sans cause - doivent être supprimées des poursuites afin que ces affaires n'aillent pas jusqu'au stade de la découverte et au-delà avec des théories de responsabilité juridiquement infirmes », a fait valoir OpenAI.
J'ai l'impression de ne pas tout comprendre mais pourquoi doit on supprimer une poursuite sous prtéexte de risque d'aller jusqu'à "la découverte de responsabilité"?
N'est ce pas justement le rôle d'un tribunal de découvrir cette théorie de responsabilité et dévaluer si elle est "juridiquement infirme"
Il a souligné la valeur et le potentiel de l'IA - en particulier de son grand modèle de langage (LLM) ChatGPT - dans l'amélioration de la productivité, l'aide au codage informatique et la simplification des tâches quotidiennes.
Oui mais certaines expériences plus que douteuses réalisée dans des systèmes totallitaires ont grandement fait avancé la science, elles sont malgré tout plus que condamnables.
Pardon pour la comparaison douteuse mais leur défense est horrible.
OpenAI va plus loin en expliquant que l'objectif de la loi sur le droit d'auteur est de promouvoir le progrès de la science et des arts utiles en protégeant la manière dont les auteurs expriment leurs idées.
Est ce seulement vrai?
Je penses que pour commencer le droit d'auteur ne promeut rien, il (essaye de) protège.
Le droit d'auteur ne promeut/proège pas le progrès de la science, ne confondent ils pas brevets et droit d'auteur?
Qu'est ce que l'art utile? Une partie de la valeur ajoutée de l'art n'est il pas qu'il n'est pas forcément intrinsèquement utile

Je trouve assez choquant que OpenAI essaye de redéfinir le droit d'auteur et son objectif.
Je penses que la course au développement à tout prix est une tendance qu'il ne fait pas de mal de freiner. Et au passage rappeler aux Start-up qui émergent qu'elles ne sont pas au delà du système dans lequel elles évoluent et qu'elles exploitent (pas forcément dans un sens péjoratif)
1  0 
Avatar de TotoParis
Membre expérimenté https://www.developpez.com
Le 13/08/2023 à 14:39
Amazon était déjà peu ou prou une "poubelle" mais là; ça dépasse l'entendement.
Bientôt, ils vendront des embryons humains congelés...
0  0