IdentifiantMot de passe
Loading...
Mot de passe oublié ?Je m'inscris ! (gratuit)

Vous êtes nouveau sur Developpez.com ? Créez votre compte ou connectez-vous afin de pouvoir participer !

Vous devez avoir un compte Developpez.com et être connecté pour pouvoir participer aux discussions.

Vous n'avez pas encore de compte Developpez.com ? Créez-en un en quelques instants, c'est entièrement gratuit !

Si vous disposez déjà d'un compte et qu'il est bien activé, connectez-vous à l'aide du formulaire ci-dessous.

Identifiez-vous
Identifiant
Mot de passe
Mot de passe oublié ?
Créer un compte

L'inscription est gratuite et ne vous prendra que quelques instants !

Je m'inscris !

OpenAI et Meta accusés d'avoir utilisé les œuvres de Sarah Silverman et de deux auteurs sans leur consentement
Comme données d'entraînements de leurs IA. Les plaintes de ce type se multiplient

Le , par Stéphane le calme

1PARTAGES

15  0 
La comédienne et auteure américaine Sarah Silverman a déposé une plainte contre les géants de la technologie Meta et OpenAI, les accusant d’avoir utilisé son œuvre sans son autorisation pour entraîner leurs modèles d’intelligence artificielle (IA) à générer du texte. Elle est rejointe par deux autres auteurs, Christopher Golden et Richard Kadrey, qui affirment que leurs livres ont également été exploités par les deux entreprises sans leur consentement.

Meta et OpenAI sont des acteurs majeurs du domaine de l’IA, notamment avec leurs modèles de langage de grande taille, comme LLaMA pour Meta et ChatGPT pour OpenAI. Ces modèles sont capables de produire des réponses convaincantes à des requêtes textuelles des utilisateurs, en se basant sur d’énormes quantités de données provenant d’Internet. Ces données incluent des livres, des articles, des blogs, des tweets et d’autres contenus textuels.

La comédienne et auteure Sarah Silverman, ainsi que les auteurs Christopher Golden et Richard Kadrey, poursuivent OpenAI et Meta chacun devant un tribunal de district américain pour double plainte pour violation du droit d'auteur.

Selon les plaintes déposées vendredi devant le tribunal fédéral de San Francisco, Meta et OpenAI ont obtenu les œuvres des plaignants à partir de sites illégaux de « bibliothèques fantômes », qui proposent des livres numérisés sans respecter les droits d’auteur. Les plaignants affirment que leurs œuvres ont été utilisées comme matériel d’entraînement pour les modèles d’IA, sans qu’ils n’en aient été informés ni rémunérés.

Les plaignants citent comme preuve le fait que les modèles d’IA sont capables de résumer leurs livres lorsqu’ils sont sollicités. Par exemple, ChatGPT peut fournir un résumé du livre The Bedwetter de Sarah Silverman, publié en 2010, qui raconte son enfance marquée par l’énurésie. De même, LLaMA peut résumer les livres Ararat de Christopher Golden et Sandman Slim de Richard Kadrey, qui sont des romans fantastiques.

Quant à la plainte séparée contre Meta, il allègue que les livres des auteurs étaient accessibles dans les ensembles de données que Meta a utilisés pour former ses modèles LLaMA, un quatuor de modèles d'IA open source que la société a introduit en février.

La plainte explique par étapes pourquoi les plaignants pensent que les ensembles de données ont des origines illicites – dans un document Meta détaillant LLaMA, la société indique les sources de ses ensembles de données de formation, dont l'un s'appelle ThePile, qui a été assemblé par une société appelée EleutherAI. ThePile, souligne la plainte, a été décrit dans un article d'EleutherAI comme étant constitué à partir « d'une copie du contenu du traceur privé Bibliotik ». Bibliotik et les autres «*bibliothèques fantômes*» répertoriées, selon la plainte, sont «*incontestablement illégales*».

Dans les deux plaintes, les auteurs disent qu'ils « n'ont pas consenti à l'utilisation de leurs livres protégés par le droit d'auteur comme matériel de formation » pour les modèles d'IA des entreprises. Leurs plaintes contiennent chacune six chefs d'accusation de divers types de violations du droit d'auteur, de négligence, d'enrichissement sans cause et de concurrence déloyale. Les auteurs demandent des dommages-intérêts légaux, la restitution des bénéfices, etc.

Les avocats Joseph Saveri et Matthew Butterick, qui représentent les trois auteurs, écrivent sur leur site Web LLMlitigation qu'ils ont entendu parler « d'écrivains, d'auteurs et d'éditeurs qui s'inquiètent de la capacité étonnante de [ChatGPT] à générer du texte similaire à celui trouvé dans les matériaux textuels protégés par les droits d'auteur, y compris des milliers de livres ».

Saveri a également engagé des poursuites contre des sociétés d'IA au nom de développeurs et d'artistes. Getty Images a également déposé une plainte contre une entreprise IA, alléguant que Stability AI, qui a créé l'outil de génération d'images IA Stable Diffusion, a formé son modèle sur « des millions d'images protégées par le droit d'auteur ». Saveri et Butterick représentent également les auteurs Mona Awad et Paul Tremblay dans une affaire similaire concernant le chatbot de l'entreprise.


D'autres auteurs avaient déjà porté plainte quelques jours plut tôt contre OpenAI

Deux auteurs américains, Paul Tremblay et Mona Awad, affirment qu'OpenAI a utilisé leurs œuvres sans autorisation pour entraîner son système d’intelligence artificielle générative ChatGPT.

ChatGPT et d’autres systèmes d’IA générative créent du contenu en utilisant de grandes quantités de données collectées sur internet. La plainte des auteurs affirme que les livres sont un « ingrédient clé » car ils offrent les « meilleurs exemples d’écriture longue de haute qualité ». La plainte estime qu’OpenAI a incorporé dans ses données d’entraînement plus de 300 000 livres, dont certains provenant de « bibliothèques fantômes » illégales qui proposent des livres protégés par le droit d’auteur sans autorisation.

Awad est connue pour ses romans comme « 13 Ways of Looking at a Fat Girl » et « Bunny ». Tremblay est l’auteur de romans comme « The Cabin at the End of the World », qui a été adapté dans le film de Night Shyamalan « Knock at the Cabin » sorti en février. Tremblay et Awad affirment que ChatGPT peut générer des résumés « très précis » de leurs livres, ce qui indique qu’ils figurent dans sa base de données.

La plainte demande une somme indéterminée de dommages-intérêts au nom d’une classe nationale de titulaires de droits d’auteur dont les œuvres auraient été utilisées abusivement par OpenAI.

Des poursuites comme celle-ci ne sont pas seulement un casse-tête pour OpenAI et d'autres sociétés d'IA; elles défient les limites mêmes du droit d'auteur. Il n'est pas exclu de voir des poursuites centrées sur le droit d'auteur dans les modèles de formation d'IA se multiplier dans les années à venir.


D'autres plaintes relatives au droit d'auteur évoquent du code source

Fin juin 2022, Copilot était proposé dans le cadre d'une Preview technique sur invitation uniquement, promettant de faire gagner du temps en répondant au code des utilisateurs par ses propres suggestions intelligentes. Ces suggestions sont basées sur des milliards de lignes de code public dont les utilisateurs ont publiquement contribué à GitHub, en utilisant un système d'IA appelé Codex de la société de recherche OpenAI.

GitHub décrit Copilot comme l'équivalent IA de la « programmation en paire », dans laquelle deux développeurs travaillent ensemble sur un seul ordinateur. L'idée est qu'un développeur peut apporter de nouvelles idées ou repérer des problèmes que l'autre développeur aurait pu manquer, même si cela nécessite plus d'heures de travail.

Dans la pratique, cependant, Copilot est plutôt un outil utilitaire de gain de temps, qui intègre les ressources que les développeurs devraient autrement chercher ailleurs. Lorsque les utilisateurs saisissent des données dans Copilot, l'outil leur suggère des extraits de code à ajouter en cliquant sur un bouton. Ainsi, ils n'ont pas à passer du temps à chercher dans la documentation de l'API ou à rechercher des exemples de code sur des sites spécialisés.

Peu après le lancement de la Preview de Copilot en 2021, certains développeurs ont commencé à s'alarmer de l'utilisation d'un code public pour entraîner l'IA de l'outil. L'une des préoccupations est que si Copilot reproduit des parties suffisamment importantes du code existant, il puisse violer les droits d'auteur ou blanchir le code open source dans des utilisations commerciales sans licence appropriée. L'outil peut également reproduire des informations personnelles que les développeurs ont publiées, et dans un cas, il a reproduit le code largement cité du jeu PC Quake III Arena de 1999, y compris le commentaire du développeur John Carmack.

L’utilisateur Hogan a aussi ajouté dans son fil de discussion : « Ce qui serait vraiment drôle, c'est que les gens qui maintiennent des dépôts populaires commençaient à mettre du mauvais code exprès ».

GitHub affirme que les dérapages de Copilot sont rares. Mais un autre utilisateur de Twitter, répondant au post de Ronacher, a écrit : « Et ici nous avons la preuve directe que GitHub reproduit directement un morceau de code sous GPL, ce qui prouve que c'est un outil vraiment dangereux à utiliser dans des environnements commerciaux ». Dans une autre réponse, on peut lire : « Lol, c'est du blanchiment de code… »

Selon Matthieu Butterick, qui porte les casquettes d'écrivain, designer, développeur et avocat, Copilot soulève des questions juridiques relatives à la fois à la formation du système et à l'utilisation du système. Aussi, il s'est associé à des avocats plaideurs en recours collectif. Ensemble, ils ont enquêté sur une poursuite potentielle contre GitHub Copilot pour violation de ses obligations légales envers les auteurs open source et les utilisateurs finaux. Au terme de cette enquête lancée en octobre, ils ont déposé une plainte contre GitHub Copilot en novembre.

La plainte, déposée au nom de quatre plaignants non identifiés ("X"), affirme que Copilot a été formé sur du code publié publiquement d'une manière qui viole la loi sur le droit d'auteur et les exigences de licence de logiciel et qu'il présente le code d'autres personnes comme le sien.

Microsoft, GitHub et OpenAI ont tenté de faire rejeter l'affaire, mais n'ont réussi qu'à se débarrasser de certaines des revendications. Le juge a laissé intacts les principaux problèmes de droit d'auteur et de licence, et a permis aux plaignants de déposer à nouveau plusieurs autres réclamations avec plus de détails.

La plainte modifiée (couvrant désormais huit chefs d'accusation au lieu de douze) retient les accusations de violation du Digital Millennium Copyright Act, de rupture de contrat (violations de licence open source), d'enrichissement déloyal et de concurrence déloyale.

Conclusion

Les plaignants estiment que l’utilisation de leurs œuvres par Meta et OpenAI constitue une violation de leurs droits d’auteur et une concurrence déloyale. Ils demandent des dommages-intérêts non spécifiés au nom d’une classe nationale de titulaires de droits d’auteur dont les œuvres auraient été utilisées sans autorisation.

Meta et OpenAI n’ont pas encore réagi aux plaintes. Les deux entreprises affirment que leurs modèles d’IA ont pour but de faire avancer la recherche et l’innovation dans le domaine du langage naturel, et qu’ils respectent les normes éthiques et juridiques.

Les plaintes de Sarah Silverman et des deux auteurs s’inscrivent dans un contexte de controverse croissante autour de l’utilisation des modèles d’IA basés sur le langage, qui soulèvent des questions sur le respect de la propriété intellectuelle, la fiabilité des informations générées et les risques potentiels pour la vie privée et la sécurité.

Source : plainte

Et vous ?

Que pensez-vous de la démarche de Sarah Silverman et des deux auteurs ?
Croyez-vous que Meta et OpenAI ont violé les droits d’auteur des plaignants ?
Quels sont les avantages et les inconvénients des modèles d’IA basés sur le langage ?
Quelles sont les mesures que Meta et OpenAI devraient prendre pour respecter la propriété intellectuelle des auteurs ?

Une erreur dans cette actualité ? Signalez-nous-la !

Avatar de OrthodoxWindows
Membre expert https://www.developpez.com
Le 08/04/2024 à 10:48
Tant que GPT-4 ne bloque pas les publicités lors de son visionnage, pour Youtube ça ne devrait pas poser de problèmes.

9  0 
Avatar de onilink_
Membre émérite https://www.developpez.com
Le 07/10/2023 à 20:08
Citation Envoyé par archqt Voir le message
Pas évident, moi je lis des livres, imaginons des milliers. Ensuite j'écris un livre qui tient compte de mes lectures. Quelle différence avec l'entraînement de l'IA au final ?
Ensuite je comprends parfaitement les remarques de ceux dont les œuvres sont "pompées"
Absolument tout... ?

Comparer un LLM, un algorithme qui à la fâcheuse tendance à mémoriser ses entrées, mais qui ne connaît rien d'autre du monde que ces données la, avec un humain qui compresse et mémorise mal mais aussi de façon ultra subjective ses lectures tout en les mélangeant à son vécu... sérieusement?

Cela me semble très dangereux d'essayer de faire le lien entre les deux.

De plus il ne te faut pas une fraction de seconde pour pondre un livre. Et si tu fais du plagiat tu te prendras un procès.

OpenAI demandent à ce que leurs magouilles deviennent juridiquement légales. Cela n'apportera rien de bon pour personne, sauf pour eux.
9  1 
Avatar de totozor
Expert confirmé https://www.developpez.com
Le 23/08/2023 à 7:42
Quelle est votre opinion sur l’utilisation du contenu protégé par le droit d’auteur comme données d’entraînement pour les modèles d’IA ?
Je suis assez partagé, autant je peux comprendre qu'un auteur ne veut pas qu'on puisse contourner l'achat de son livre avec une IA.
Autant les auteurs doivent aussi admettre que leurs oeuvres sont publiques et il n'y a rien de choquant qu'une IA puisse faire un résumé de celles ci. Tout comme il n'est pas choquant qu'une IA résume la pensée d'un philosophe.
Pensez-vous que les entreprises d’IA devraient payer les auteurs dont les œuvres sont utilisées comme données d’entraînement ?
Ca les rendrait instantanément non viables, ça rendrait les IA existantes complètement protégées d'éventuel nouveau concurent.
Avez-vous déjà utilisé ou interagi avec un modèle d’IA qui a généré du contenu protégé par le droit d’auteur ? Si oui, comment avez-vous réagi ?
Probablement pas mais beaucoup de monde semble impressionné par les réponses à "écrit moi un texte à la façon de ..." donc c'est monnaie courante.

Citation Envoyé par Stéphane le calme Voir le message
ChatGPT tente désormais d’éviter de répondre aux sollicitations des utilisateurs avec des formulations exactes provenant d’œuvres protégées par le droit d’auteur, selon un article technique publié par un groupe de chercheurs en IA travaillant pour le pôle recherche de ByteDance.
C'est interressant parce que si l'article dit vrai ça veut dire que ChatGPT sait identifier les textes soumis au droit d'auteur et donc ne pourra pas se défendre en disant qu'ils ont traité une tonne de données aveuglément et qu'ils sont donc incapable d'identifier les données libres de droit des autres.
4  0 
Avatar de Leruas
Membre éclairé https://www.developpez.com
Le 08/04/2024 à 21:24
Heureusement qu'ils n'ont pas entrainé GPT-4 sur des vidéos TikTok
4  0 
Avatar de _toma_
Membre éclairé https://www.developpez.com
Le 08/10/2023 à 18:28
La question du comité : "Comment justifiez-vous de la légalité de votre collecte de données ?"
La réponse d'openAI : "Nous vous assurons que cette collecte de données est loyale."

Et la suite de leur réponse :
L'incertitude juridique sur les implications en matière de droit d'auteur de l'entraînement des systèmes d'IA impose des coûts substantiels aux développeurs d'IA et devrait donc être résolue de manière autoritaire.
Non mais vous êtes sérieux les gars ? Vous voulez bien faire de la thune mais vous voulez pas en dépenser donc il faudrait prendre une décision autoritaire (qui fasse abstraction de la loi ?) qui aille dans votre sens. C'est vraiment ça la réponse ? Ça me semble tellement hallucinant que je me demande si je comprends bien la phrase.
4  1 
Avatar de Fagus
Membre expert https://www.developpez.com
Le 23/08/2023 à 13:11
Citation Envoyé par totozor
autant je peux comprendre qu'un auteur ne veut pas qu'on puisse contourner l'achat de son livre avec une IA.
Autant les auteurs doivent aussi admettre que leurs oeuvres sont publiques et il n'y a rien de choquant qu'une IA puisse faire un résumé de celles ci. Tout comme il n'est pas choquant qu'une IA résume la pensée d'un philosophe.
Je suis d'accord, mais je vois deux problème légaux :
  1. que la société n'ait pas payé les documents d'entraînement . Si un particulier veut accéder à un contenu sous droit d'auteur, il n'a pas le droit de le télécharger sur un torrent. Je ne vois pas pourquoi une puissante société aurait le droit de le faire en toute impunité. Surtout que pour de nombreux contenu, une licence commerciale n'est pas la même qu'une licence d'utilisation pour un utilisateur. C'est comme si pour le prix d'un livre harry potter, j'avais le droit de faire un usage commercial du contenu...
  2. que le modèle puisse reconstituer l'oeuvre si on lui demande (pour cela il semble qu'ils prennent des mesures techniques).
2  0 
Avatar de onilink_
Membre émérite https://www.developpez.com
Le 01/09/2023 à 13:24
Il n'y a rien d'étonnant, rien ne va de toute façon avec OpenAI, à commencer par leur nom.

Ils parlent de progrès et de développement scientifique mais ChatGPT n'est qu'une interface pimpée sur une techno qui existe déjà depuis au moins 3 ans. Il n'y a aucun apport scientifique de leur coté. Il n'ont même pas inventé les transformers sur quoi sont basé les LLM qu'ils utilisent (je crois que c'est Google qui en est à l'origine).

Leur "seul" apport c'est de dépenser des sommes considérables pour entraîner des modèles gigantesques relativement "cons" mais ont des performances qui dépendent de leur taille.

Tout le reste n'est que stratégie marketing et médiatique.
Habituer les utilisateurs à un service gratuit d'une techno qui parait révolutionnaire et qui est plutôt coûteuse de leur coté (ceux qui ont utilisé GPT3 avant que ChatGPT ne sorte savent qu'il y a un prix fixé au token) puis diminuer la qualité du service gratuit pour forcer à prendre un abonnement et essayer de rendre ça lucratif de leur coté.
2  0 
Avatar de JRM73
Membre à l'essai https://www.developpez.com
Le 10/10/2023 à 14:35
@archqt

certes, mais toi, comme tu es un gars bien, tu les payes tes livres.

2  0 
Avatar de kain_tn
Expert éminent https://www.developpez.com
Le 10/10/2023 à 22:27
Citation Envoyé par _toma_ Voir le message
La question du comité : "Comment justifiez-vous de la légalité de votre collecte de données ?"
La réponse d'openAI : "Nous vous assurons que cette collecte de données est loyale."

Et la suite de leur réponse :

Non mais vous êtes sérieux les gars ? Vous voulez bien faire de la thune mais vous voulez pas en dépenser donc il faudrait prendre une décision autoritaire (qui fasse abstraction de la loi ?) qui aille dans votre sens. C'est vraiment ça la réponse ? Ça me semble tellement hallucinant que je me demande si je comprends bien la phrase.
On ne devient pas milliardaire en dépensant de l'argent mais en demandant à ses petits copains de faire passer des lois, donner des contrats, etc. Sam Altman n'échappe pas à la règle.
2  0 
Avatar de onilink_
Membre émérite https://www.developpez.com
Le 23/08/2023 à 13:55
Je ne vois pas pourquoi il faudrait créer une exception.

Si j’apprends par cœur un livre Harry Potter et que je le re écris sur internet, j’enfreins le droit d'auteur.
Pourquoi cela devrait être différent venant d'une IA?

Si empêcher l'utilisation de texte soumis au droit d'auteur diminuerait la qualité des modèles ça montre d'autant plus l'importance:
- de continuer de protéger ces textes, je ne vois pas pourquoi on ferait des exceptions pour ces modèles que seules des multinationales peuvent se payer et entraîner et qui en plus ne sont pas ouverts. Cela montre d'autant plus la valeur de ces textes puisqu'ils ne peuvent pas s'en passer
- qu'il faudrait changer de paradigme et arrêter de faire des modèles qui ingurgitent et apprennent par cœur les données d’entraînement

C'est un aveux que ces modèles sont des machines à pomper les données malgré ce qu'ils essayent de nous vendre.
Avec les fameuses analogies de la façon dont l'humain apprends... alors que cela n'a rien, mais alors rien à voir.

Forcer les modèles d'arrêter à régurgiter les données d’entraînement serait sûrement le moyen légal le plus efficace pour régler pas mal de problèmes éthiques causés par l'IA, comme:
- le plagia des modèles génératifs, que ce soit du style ou carrément des images de certaines artistes, ou comme ici de livres ou autres textes protégés
- l'apprentissage par cœur de données privées, car contrairement a ce que l'on nous vend les données d’entraînement ne sont pas obtenues que par des sources publiques. Cela crée des problèmes de sécurité assez gros comme on peut l'imaginer
- le fait qu'on ne sait pas si une sortie peut être utilisée légalement (ex: la licence d'un code source généré qui aurait pompé des bouts soumis à la GNU GPL )

Science4All a fait pas mal de vidéos très intéressantes sur le sujet, qui est évidemment bien plus complexe que ce qu'il laisse paraitre au premier abord.

Bonus: https://thenib.com/im-a-luddite/
1  0