
OpenAI a accusé le New York Times d'avoir payé quelqu'un pour "pirater" ChatGPT afin de générer des paragraphes textuels à partir d'articles de son journal. Par piratage, l'entreprise entend sans doute : se connecter comme d'habitude et lui poser des questions visant à piéger le chatbot IA.
En décembre, le NYT a intenté un procès à OpenAI et à son bailleur de fonds Microsoft, les accusant de s'être emparés sans autorisation du site web du journal pour entraîner de grands modèles de langage. L'action en justice comprenait ce qui était censé être la preuve que ChatGPT reproduisait des passages entiers d'articles du New York Times à la suite d'invites envoyées par les utilisateurs.
La plainte du New York Times citait plusieurs exemples où les chatbots d’OpenAI et de Microsoft donnaient aux utilisateurs des extraits quasi textuels de ses articles lorsqu’ils étaient sollicités. Elle accusait OpenAI et Microsoft de vouloir « profiter gratuitement de l’énorme investissement du Times dans le journalisme » et de créer un substitut au journal.
L'éditeur estime que les utilisateurs de la technologie d'OpenAI - que Microsoft applique à l'ensemble de son empire logiciel et cloud - pourraient effectivement contourner le paywall du journal et lire des articles gratuitement en demandant au chatbot de générer des morceaux de texte qu'il a couvert, privant ainsi l'entreprise de l'argent de ses abonnements.
Sur la gauche se trouve une partie de la réponse générée par ChatGPT. À droite, l'article du New York Times. Le texte correspondant est en rouge.
Mais OpenAI n'est pas d'accord et demande au tribunal de rejeter l'affaire
OpenAI a toutefois riposté cette semaine à ces allégations en demandant au tribunal de rejeter l'affaire. La startup a estimé que les preuves fournies par le journal « semblent avoir été des efforts prolongés et étendus pour pirater les modèles d'OpenAI », et a nié que ChatGPT puisse détourner les gens des paywall, ajoutant que les gens n'utilisent pas le chatbot pour lire des articles publiés de toute façon.
OpenAI a allégué que « 100 exemples dans lesquels une version du modèle GPT-4 d'OpenAI a soi-disant généré plusieurs paragraphes du contenu du Times en réponse à des invites de l'utilisateur » ne reflètent pas la façon dont les gens normaux utilisent ChatGPT.
Au contraire, il aurait fallu au Times « des dizaines de milliers de tentatives pour générer » ces supposés « résultats hautement anormaux » en « ciblant et en exploitant un bogue » qu'OpenAI affirme s'être maintenant « engagée à corriger ».
Selon OpenAI, cette activité équivaut à des « attaques fabriquées » par un « tueur à gages », qui aurait piraté les modèles OpenAI jusqu'à ce qu'ils hallucinent du faux contenu du NYT ou régurgitent des données d'entraînement pour reproduire les articles du NYT. Le NYT aurait payé pour ces « attaques » afin de recueillir des preuves à l'appui des affirmations du Times selon lesquelles les produits d'OpenAI mettent en péril son journalisme en régurgitant prétendument des reportages et en volant l'audience du Times.
OpenAI n’a pas nommé la personne qu’elle qualifie de « tueur à gages » et n’a pas accusé le journal d’enfreindre les lois anti-piratage.
Dans une précédente tentative de décrédibiliser le New York Times, OpenAI avait indiqué :
Nos discussions avec le New York Times semblaient progresser de manière constructive jusqu'à notre dernière communication du 19 décembre. Les négociations portaient sur un partenariat de grande valeur autour de l'affichage en temps réel avec attribution dans ChatGPT, dans lequel le New York Times gagnerait un nouveau moyen de se connecter avec ses lecteurs existants et nouveaux, et nos utilisateurs auraient accès à leurs reportages. Nous avions expliqué au New York Times que, comme toute source unique, son contenu ne contribuait pas de manière significative à la formation de nos modèles existants et n'aurait pas non plus suffisamment d'impact pour les formations futures. Le procès qu'ils ont intenté le 27 décembre - dont nous avons pris connaissance en lisant le New York Times - nous a surpris et déçus.
En cours de route, ils ont mentionné avoir constaté une certaine régurgitation de leur contenu, mais ils ont refusé à plusieurs reprises de partager des exemples, malgré notre engagement à enquêter et à résoudre les problèmes. Nous avons montré à quel point nous prenons cette question au sérieux, comme en juillet, lorsque nous avons supprimé une fonction de ChatGPT immédiatement après avoir appris qu'elle pouvait reproduire du contenu en temps réel de manière involontaire.
Il est intéressant de noter que les régurgitations provoquées par le New York Times semblent provenir d’articles vieux de plusieurs années qui ont proliféré sur plusieurs sites Web tiers. Il semble qu’ils aient intentionnellement manipulé les invites, comprenant souvent de longs extraits d’articles, afin de faire régurgiter notre modèle. Même lorsqu’ils utilisent de telles invites, nos modèles ne se comportent généralement pas comme le laisse entendre le New York Times, ce qui suggère qu’ils ont soit demandé au modèle de régurgiter, soit sélectionné leurs exemples parmi de nombreuses tentatives.
En cours de route, ils ont mentionné avoir constaté une certaine régurgitation de leur contenu, mais ils ont refusé à plusieurs reprises de partager des exemples, malgré notre engagement à enquêter et à résoudre les problèmes. Nous avons montré à quel point nous prenons cette question au sérieux, comme en juillet, lorsque nous avons supprimé une fonction de ChatGPT immédiatement après avoir appris qu'elle pouvait reproduire du contenu en temps réel de manière involontaire.
Il est intéressant de noter que les régurgitations provoquées par le New York Times semblent provenir d’articles vieux de plusieurs années qui ont proliféré sur plusieurs sites Web tiers. Il semble qu’ils aient intentionnellement manipulé les invites, comprenant souvent de longs extraits d’articles, afin de faire régurgiter notre modèle. Même lorsqu’ils utilisent de telles invites, nos modèles ne se comportent généralement pas comme le laisse entendre le New York Times, ce qui suggère qu’ils ont soit demandé au modèle de régurgiter, soit sélectionné leurs exemples parmi de nombreuses tentatives.
Le New York Times réplique
Ci-dessous un extrait du dépôt du New York Times.
Ne disposant d'aucun motif réel de rejet, OpenAI consacre une grande partie de son dossier à des déclarations grandiloquentes sur des questions qu'elle n'a pas abordées. Sa requête introduit pas moins de 19 documents extrinsèques, dont aucun ne peut être correctement pris en compte dans le cadre d'une motion de rejet, dans une soumission qui, sur près de 10 pages, ressemble plus à une pirouette qu'à un mémoire juridique.
Il est évident que l'affirmation d'OpenAI, qui attire l'attention, selon laquelle le Times a « piraté » ses produits est aussi peu pertinente que fausse. Comme le montre clairement la pièce J de la plainte, le Times a obtenu des exemples de mémorisation en demandant à GPT-4 d'écrire les premiers mots ou les premières phrases des articles du Times. Ce travail n'était nécessaire que parce qu'OpenAI ne divulgue pas le contenu qu'elle utilise pour entraîner ses modèles et alimenter ses produits destinés aux utilisateurs. Pourtant, selon OpenAI, le Times a commis un acte répréhensible en détectant le vol par OpenAI de son propre contenu protégé par le droit d'auteur. Le véritable grief d'OpenAI ne porte pas sur la manière dont le Times a mené son enquête, mais plutôt sur ce que cette enquête a révélé : que les défendeurs ont construit leurs produits en copiant le contenu du Times à une échelle sans...
La fin de cet article est réservée aux abonnés. Soutenez le Club Developpez.com en prenant un abonnement pour que nous puissions continuer à vous proposer des publications.