IdentifiantMot de passe
Loading...
Mot de passe oublié ?Je m'inscris ! (gratuit)

Vous êtes nouveau sur Developpez.com ? Créez votre compte ou connectez-vous afin de pouvoir participer !

Vous devez avoir un compte Developpez.com et être connecté pour pouvoir participer aux discussions.

Vous n'avez pas encore de compte Developpez.com ? Créez-en un en quelques instants, c'est entièrement gratuit !

Si vous disposez déjà d'un compte et qu'il est bien activé, connectez-vous à l'aide du formulaire ci-dessous.

Identifiez-vous
Identifiant
Mot de passe
Mot de passe oublié ?
Créer un compte

L'inscription est gratuite et ne vous prendra que quelques instants !

Je m'inscris !

Une auteure découvre des livres contrefaits générés par l'IA et écrits à son nom sur Amazon. Amazon a refusé de les retirer
évoquant un manque de « numéros d'enregistrement de marque »

Le , par Stéphane le calme

17PARTAGES

12  0 
Jane Friedman, journaliste, auteure et professeure, a récemment découvert sur Amazon et Goodreads une demi-douzaine de livres frauduleux portant son nom, probablement remplis de contenu généré par l’intelligence artificielle (IA). Ces livres traitaient de sujets similaires à ceux qu’elle aborde dans ses ouvrages, comme l’écriture, la publication et la promotion de livres électroniques. Elle a demandé à Amazon et à Goodreads de retirer ces faux titres de leurs sites, mais elle s’est heurtée à des difficultés et à des résistances. Ce n'est que quand la plainte de Jane Friedman est devenue virale sur internet que les deux plateformes ont décidé de retirer lesdits livres.

Friedman, qui rapporte sur l’industrie du livre et qui a écrit 10 livres, dont “The Business of Being a Writer”, “What Editors Do” et “Publishing 101”, s’inquiète de l’impact que ces livres contrefaits peuvent avoir sur sa réputation. « Une personne raisonnable pourrait penser que je contrôle les livres qui sont affichés sur mon profil Goodreads, ou que je les approuve, ou qu’à tout le moins je pourrais les faire retirer facilement. Ce n’est pas le cas », a-t-elle écrit dans un billet de blog intitulé "I Would Rather See My Books Get Pirated Than This (Or : why Goodreads and Amazon Are Becoming Dumpster Fires)".

Il n’est pas facile de faire retirer les livres faussement attribués. Sur Goodreads, le processus nécessite que les auteurs contactent des “bibliothécaires” bénévoles et rejoignent des groupes spécifiques et publient des commentaires pour demander la suppression des livres illégitimes. Même ainsi, il n’y a aucune garantie que les titres offensants seront retirés rapidement. Friedman rapporte que Goodreads a retiré les titres offensants de son profil officiel d’auteur quelques heures après la publication de son billet de blog.

Lorsqu’elle a contacté Amazon pour lui demander de retirer les titres de son profil d’auteur, Amazon lui a demandé des « numéros d’enregistrement de marque » relatifs à sa réclamation et, en apprenant qu’elle ne détenait pas de marque pour son nom, a clos le dossier sans retirer les livres de la vente. Bien que les titres frauduleux aient finalement été retirés d’Amazon après que l’histoire ait fait le tour du web, l’expérience de Friedman met en lumière le processus complexe auquel les auteurs doivent se soumettre pour protéger leur nom et leur travail en ligne.

La partie émergée de l'iceberg

Ce problème fait partie d’un problème plus large auquel Amazon est confronté en relation avec les publications générées par l’IA, alors qu’il essaie de faire face à une vague de faux guides de voyage potentiellement dangereux. En février, Reuters a fait un portrait d’auteurs utilisant ChatGPT pour écrire des livres électroniques, les vendant via Amazon. En juin, Vice a rapporté une affluence de dizaines de livres générés par l’IA et remplis de non-sens qui ont envahi les listes des meilleures ventes de Kindle.

Friedman n’est pas la seule dans cette lutte. Sur le réseau social X (anciennement Twitter), l’auteure Jane Ward a déclaré avoir récemment découvert 29 titres sur Goodreads qui lui attribuaient faussement son nom d’auteur. Elle a également demandé à Goodreads de retirer ces livres, mais elle n’a pas reçu de réponse satisfaisante.

De nombreuses autres réponses aux publications de Friedman sur le sujet suggèrent que l'usurpation d'identité par des vendeurs frauduleux est devenue un phénomène courant sur Goodreads et Amazon, frustrant de nombreux auteurs. Par exemple, une autre auteure, Sarah Rose, a tweeté : « Les gens n'arrêtent pas de me dire qu'ils ont acheté mon dernier livre - qui porte mon nom, mais je n'ai pas écrit - un escroc utilisant l'algorithme "trouver plus par cet auteur". Mon éditeur n'a pas pu faire que ça s'arrête et j'ai en quelque sorte abandonné ».


Indépendamment de ce que contiennent les faux livres, la grande question est de savoir comment Amazon et Goodreads, deux sites majeurs qui atteignent des centaines de millions de clients, prévoient de protéger à la fois les auteurs et les clients contre la fraude et la mauvaise attribution.

Ces cas soulèvent des questions sur la vérification des auteurs et la responsabilité des plateformes en ligne face à la prolifération des contenus générés par l’IA. Comment les lecteurs peuvent-ils distinguer les vrais auteurs des imposteurs ? Comment les auteurs peuvent-ils protéger leur identité et leur propriété intellectuelle ? Comment les plateformes peuvent-elles empêcher ou détecter les publications frauduleuses ? Ce sont autant de défis auxquels le monde du livre devra faire face à l’ère de l’IA.

La parole est à Jane Friedman

Il n'y a pas grand-chose qui me met en colère ces jours-ci à propos de l'écriture et de la publication. J'ai tout vu. Je sais à quoi m'attendre d'Amazon et de Goodreads. Signification : Je n'attends pas grand-chose et je suppose que je serai continuellement déçu. Je n'ai pas non plus le pouvoir de changer leur fonctionnement. Ma stratégie d'économie d'énergie : passez à autre chose et concentrez-vous sur ce que vous pouvez contrôler.

Cela va devenir beaucoup plus difficile à faire si Amazon et Goodreads ne commencent pas à se défendre contre les déchets absolus qui se répandent actuellement sur leurs sites.

Je sais que mon travail est piraté et franchement, je m'en fiche. (Je ne dis pas que les autres auteurs ne devraient pas s'en soucier, mais ce n'est pas une bataille qui vaut mon temps aujourd'hui.)

Mais voici ce qui me dérange : des livres poubelles sont téléchargés sur Amazon où mon nom est crédité en tant qu'auteur, tels que :
  • un guide étape par étape pour créer des livres électroniques convaincants, créer une plateforme d'auteur florissante et maximiser la rentabilité
  • comment écrire et publier un eBook rapidement et gagner de l'argent
  • promouvoir pour prospérer : stratégies pour faire monter en flèche vos ventes de livres électroniques sur Amazon
  • puissance d'édition : naviguer dans la publication directe Kindle d'Amazon
  • Igniting Ideas : votre guide pour écrire un eBook best-seller sur Amazon


Faux livres de Jane Friedman sur Goodreads (maintenant supprimés)

Celui qui fait cela s'en prend manifestement aux écrivains qui font confiance à mon nom et pensent que j'ai réellement écrit ces livres. Je n'ai pas. Très probablement, ils ont été générés par l'IA. (Pourquoi est-ce que je pense cela ? J'ai beaucoup utilisé ces outils d'IA pour tester dans quelle mesure ils peuvent reproduire mes connaissances. Je blogue depuis 2009 : une grande partie de mon contenu est accessible au public pour la formation de modèles d'IA. Dès que j'ai lu les premières pages de ces faux livres, j'ai eu l'impression de lire les réponses ChatGPT que j'avais générées moi-même.)

Il est peut-être possible d'ignorer ce non-sens à un certain niveau, car ces livres ne reçoivent pas d'avis de clients (jusqu'à présent), et la plupart du temps, ils tombent au bas des résultats de recherche (mais pas toujours). À tout le moins, si vous regardez mon profil d'auteur sur Amazon, ces livres de pacotille n'apparaissent pas. Un lecteur qui applique une pensée critique pourrait réfléchir à deux fois avant d'accepter ces livres comme les miens.

Pourtant, ce n'est pas génial. Et c'est à moi, l'auteur - celui qui a une réputation en jeu - de faire retirer ces livres trompeurs d'Amazon. Je ne suis même pas sûr que ce soit possible. Je ne possède pas les droits d'auteur sur ces livres de pacotille. Je ne "possède" pas exactement mon nom non plus - beaucoup d'autres personnes qui sont aussi des auteurs légitimes partagent mon nom, après tout. Alors, pour quelles raisons puis-je réussir à exiger cet arrêt, du moins aux yeux d'Amazon ? Je ne suis pas sûr.

Pour ajouter l'insulte à l'injure, ces faux livres sont ajoutés à mon profil officiel Goodreads. Une personne raisonnable pourrait penser que je contrôle les livres affichés sur mon profil Goodreads, ou que je les approuve, ou à tout le moins que je pourrais les faire supprimer facilement. Pas si.

Si vous avez besoin de faire corriger votre profil Goodreads – en ce qui concerne les livres qui vous sont crédités – vous devez contacter des « bibliothécaires » bénévoles sur Goodreads, ce qui nécessite de rejoindre un groupe, puis de publier dans un fil de commentaires que vous souhaitez que les livres illégitimes soient supprimés. depuis votre profil.

Lorsque je me suis plaint à ce sujet sur Twitter/X, une auteure a répondu qu'elle devait signaler 29 livres illégitimes rien que la semaine dernière. 29 !

Avec le flot de contenus d'IA désormais publiés sur Amazon, parfois attribués aux auteurs de manière trompeuse ou frauduleuse, comment peut-on raisonnablement s'attendre à ce que les auteurs actifs passent chaque semaine pour le reste de leur vie à surveiller cela ? Et si les auteurs ne le contrôlent pas, ils en entendront certainement parler, de la part de lecteurs préoccupés par ces livres d'ordures, et de lecteurs qui ont crédulement acheté cette merde et se sont plaints. Ou les auteurs pourraient ne rien entendre du tout et perdre à jamais un lecteur potentiel.

Nous avons désespérément besoin de garde-fous sur ce glissement de terrain de mauvaise attribution et de désinformation. Amazon et Goodreads, je vous prie de créer un moyen de vérifier la paternité, ou pour les auteurs de bloquer facilement les livres frauduleux qui leur sont crédités. Faites-le maintenant, faites-le vite.

Malheureusement, même si et quand vous obtenez ces livres insensés supprimés de vos profils officiels, ils flotteront toujours là-bas, avec votre nom, sur deux sites majeurs qui attirent des millions de visiteurs, attendant juste d'être "découverts". Et vous ne pouvez absolument rien y faire.

Sources : Jane Friedman, Sarah Rose

Et vous ?

Êtes-vous surpris de voir le phénomène prendre de l'ampleur à l'ère de la vulgarisation de l'IA générative ?
Quelle est votre réaction face à la découverte de Jane Friedman sur les livres contrefaits générés par l’IA ?
Pensez-vous qu’Amazon et Goodreads devraient être plus vigilants et plus réactifs face à ce problème ?
Avez-vous déjà rencontré des livres générés par l’IA sur ces plateformes ou ailleurs ? Si oui, comment les avez-vous reconnus ?
Quelles sont les conséquences potentielles de la diffusion de ces livres frauduleux sur les auteurs, les lecteurs et l’industrie du livre ?
Que pensez-vous des auteurs qui utilisent l’IA pour écrire des livres électroniques et les vendre en ligne ?

Une erreur dans cette actualité ? Signalez-nous-la !

Avatar de onilink_
Membre émérite https://www.developpez.com
Le 07/10/2023 à 20:08
Citation Envoyé par archqt Voir le message
Pas évident, moi je lis des livres, imaginons des milliers. Ensuite j'écris un livre qui tient compte de mes lectures. Quelle différence avec l'entraînement de l'IA au final ?
Ensuite je comprends parfaitement les remarques de ceux dont les œuvres sont "pompées"
Absolument tout... ?

Comparer un LLM, un algorithme qui à la fâcheuse tendance à mémoriser ses entrées, mais qui ne connaît rien d'autre du monde que ces données la, avec un humain qui compresse et mémorise mal mais aussi de façon ultra subjective ses lectures tout en les mélangeant à son vécu... sérieusement?

Cela me semble très dangereux d'essayer de faire le lien entre les deux.

De plus il ne te faut pas une fraction de seconde pour pondre un livre. Et si tu fais du plagiat tu te prendras un procès.

OpenAI demandent à ce que leurs magouilles deviennent juridiquement légales. Cela n'apportera rien de bon pour personne, sauf pour eux.
9  1 
Avatar de OrthodoxWindows
Membre émérite https://www.developpez.com
Le 08/04/2024 à 10:48
Tant que GPT-4 ne bloque pas les publicités lors de son visionnage, pour Youtube ça ne devrait pas poser de problèmes.

8  0 
Avatar de totozor
Membre expert https://www.developpez.com
Le 23/08/2023 à 7:42
Quelle est votre opinion sur l’utilisation du contenu protégé par le droit d’auteur comme données d’entraînement pour les modèles d’IA ?
Je suis assez partagé, autant je peux comprendre qu'un auteur ne veut pas qu'on puisse contourner l'achat de son livre avec une IA.
Autant les auteurs doivent aussi admettre que leurs oeuvres sont publiques et il n'y a rien de choquant qu'une IA puisse faire un résumé de celles ci. Tout comme il n'est pas choquant qu'une IA résume la pensée d'un philosophe.
Pensez-vous que les entreprises d’IA devraient payer les auteurs dont les œuvres sont utilisées comme données d’entraînement ?
Ca les rendrait instantanément non viables, ça rendrait les IA existantes complètement protégées d'éventuel nouveau concurent.
Avez-vous déjà utilisé ou interagi avec un modèle d’IA qui a généré du contenu protégé par le droit d’auteur ? Si oui, comment avez-vous réagi ?
Probablement pas mais beaucoup de monde semble impressionné par les réponses à "écrit moi un texte à la façon de ..." donc c'est monnaie courante.

Citation Envoyé par Stéphane le calme Voir le message
ChatGPT tente désormais d’éviter de répondre aux sollicitations des utilisateurs avec des formulations exactes provenant d’œuvres protégées par le droit d’auteur, selon un article technique publié par un groupe de chercheurs en IA travaillant pour le pôle recherche de ByteDance.
C'est interressant parce que si l'article dit vrai ça veut dire que ChatGPT sait identifier les textes soumis au droit d'auteur et donc ne pourra pas se défendre en disant qu'ils ont traité une tonne de données aveuglément et qu'ils sont donc incapable d'identifier les données libres de droit des autres.
4  0 
Avatar de _toma_
Membre averti https://www.developpez.com
Le 08/10/2023 à 18:28
La question du comité : "Comment justifiez-vous de la légalité de votre collecte de données ?"
La réponse d'openAI : "Nous vous assurons que cette collecte de données est loyale."

Et la suite de leur réponse :
L'incertitude juridique sur les implications en matière de droit d'auteur de l'entraînement des systèmes d'IA impose des coûts substantiels aux développeurs d'IA et devrait donc être résolue de manière autoritaire.
Non mais vous êtes sérieux les gars ? Vous voulez bien faire de la thune mais vous voulez pas en dépenser donc il faudrait prendre une décision autoritaire (qui fasse abstraction de la loi ?) qui aille dans votre sens. C'est vraiment ça la réponse ? Ça me semble tellement hallucinant que je me demande si je comprends bien la phrase.
4  1 
Avatar de Leruas
Membre éclairé https://www.developpez.com
Le 08/04/2024 à 21:24
Heureusement qu'ils n'ont pas entrainé GPT-4 sur des vidéos TikTok
3  0 
Avatar de Fagus
Membre expert https://www.developpez.com
Le 23/08/2023 à 13:11
Citation Envoyé par totozor
autant je peux comprendre qu'un auteur ne veut pas qu'on puisse contourner l'achat de son livre avec une IA.
Autant les auteurs doivent aussi admettre que leurs oeuvres sont publiques et il n'y a rien de choquant qu'une IA puisse faire un résumé de celles ci. Tout comme il n'est pas choquant qu'une IA résume la pensée d'un philosophe.
Je suis d'accord, mais je vois deux problème légaux :
  1. que la société n'ait pas payé les documents d'entraînement . Si un particulier veut accéder à un contenu sous droit d'auteur, il n'a pas le droit de le télécharger sur un torrent. Je ne vois pas pourquoi une puissante société aurait le droit de le faire en toute impunité. Surtout que pour de nombreux contenu, une licence commerciale n'est pas la même qu'une licence d'utilisation pour un utilisateur. C'est comme si pour le prix d'un livre harry potter, j'avais le droit de faire un usage commercial du contenu...
  2. que le modèle puisse reconstituer l'oeuvre si on lui demande (pour cela il semble qu'ils prennent des mesures techniques).
2  0 
Avatar de onilink_
Membre émérite https://www.developpez.com
Le 01/09/2023 à 13:24
Il n'y a rien d'étonnant, rien ne va de toute façon avec OpenAI, à commencer par leur nom.

Ils parlent de progrès et de développement scientifique mais ChatGPT n'est qu'une interface pimpée sur une techno qui existe déjà depuis au moins 3 ans. Il n'y a aucun apport scientifique de leur coté. Il n'ont même pas inventé les transformers sur quoi sont basé les LLM qu'ils utilisent (je crois que c'est Google qui en est à l'origine).

Leur "seul" apport c'est de dépenser des sommes considérables pour entraîner des modèles gigantesques relativement "cons" mais ont des performances qui dépendent de leur taille.

Tout le reste n'est que stratégie marketing et médiatique.
Habituer les utilisateurs à un service gratuit d'une techno qui parait révolutionnaire et qui est plutôt coûteuse de leur coté (ceux qui ont utilisé GPT3 avant que ChatGPT ne sorte savent qu'il y a un prix fixé au token) puis diminuer la qualité du service gratuit pour forcer à prendre un abonnement et essayer de rendre ça lucratif de leur coté.
2  0 
Avatar de JRM73
Futur Membre du Club https://www.developpez.com
Le 10/10/2023 à 14:35
@archqt

certes, mais toi, comme tu es un gars bien, tu les payes tes livres.

2  0 
Avatar de kain_tn
Expert éminent https://www.developpez.com
Le 10/10/2023 à 22:27
Citation Envoyé par _toma_ Voir le message
La question du comité : "Comment justifiez-vous de la légalité de votre collecte de données ?"
La réponse d'openAI : "Nous vous assurons que cette collecte de données est loyale."

Et la suite de leur réponse :

Non mais vous êtes sérieux les gars ? Vous voulez bien faire de la thune mais vous voulez pas en dépenser donc il faudrait prendre une décision autoritaire (qui fasse abstraction de la loi ?) qui aille dans votre sens. C'est vraiment ça la réponse ? Ça me semble tellement hallucinant que je me demande si je comprends bien la phrase.
On ne devient pas milliardaire en dépensant de l'argent mais en demandant à ses petits copains de faire passer des lois, donner des contrats, etc. Sam Altman n'échappe pas à la règle.
2  0 
Avatar de onilink_
Membre émérite https://www.developpez.com
Le 23/08/2023 à 13:55
Je ne vois pas pourquoi il faudrait créer une exception.

Si j’apprends par cœur un livre Harry Potter et que je le re écris sur internet, j’enfreins le droit d'auteur.
Pourquoi cela devrait être différent venant d'une IA?

Si empêcher l'utilisation de texte soumis au droit d'auteur diminuerait la qualité des modèles ça montre d'autant plus l'importance:
- de continuer de protéger ces textes, je ne vois pas pourquoi on ferait des exceptions pour ces modèles que seules des multinationales peuvent se payer et entraîner et qui en plus ne sont pas ouverts. Cela montre d'autant plus la valeur de ces textes puisqu'ils ne peuvent pas s'en passer
- qu'il faudrait changer de paradigme et arrêter de faire des modèles qui ingurgitent et apprennent par cœur les données d’entraînement

C'est un aveux que ces modèles sont des machines à pomper les données malgré ce qu'ils essayent de nous vendre.
Avec les fameuses analogies de la façon dont l'humain apprends... alors que cela n'a rien, mais alors rien à voir.

Forcer les modèles d'arrêter à régurgiter les données d’entraînement serait sûrement le moyen légal le plus efficace pour régler pas mal de problèmes éthiques causés par l'IA, comme:
- le plagia des modèles génératifs, que ce soit du style ou carrément des images de certaines artistes, ou comme ici de livres ou autres textes protégés
- l'apprentissage par cœur de données privées, car contrairement a ce que l'on nous vend les données d’entraînement ne sont pas obtenues que par des sources publiques. Cela crée des problèmes de sécurité assez gros comme on peut l'imaginer
- le fait qu'on ne sait pas si une sortie peut être utilisée légalement (ex: la licence d'un code source généré qui aurait pompé des bouts soumis à la GNU GPL )

Science4All a fait pas mal de vidéos très intéressantes sur le sujet, qui est évidemment bien plus complexe que ce qu'il laisse paraitre au premier abord.

Bonus: https://thenib.com/im-a-luddite/
1  0