OpenAI a accusé le New York Times d'avoir payé quelqu'un pour "pirater" ChatGPT afin de générer des paragraphes textuels à partir d'articles de son journal. Par piratage, l'entreprise entend sans doute : se connecter comme d'habitude et lui poser des questions visant à piéger le chatbot IA.
En décembre, le NYT a intenté un procès à OpenAI et à son bailleur de fonds Microsoft, les accusant de s'être emparés sans autorisation du site web du journal pour entraîner de grands modèles de langage. L'action en justice comprenait ce qui était censé être la preuve que ChatGPT reproduisait des passages entiers d'articles du New York Times à la suite d'invites envoyées par les utilisateurs.
La plainte du New York Times citait plusieurs exemples où les chatbots d’OpenAI et de Microsoft donnaient aux utilisateurs des extraits quasi textuels de ses articles lorsqu’ils étaient sollicités. Elle accusait OpenAI et Microsoft de vouloir « profiter gratuitement de l’énorme investissement du Times dans le journalisme » et de créer un substitut au journal.
L'éditeur estime que les utilisateurs de la technologie d'OpenAI - que Microsoft applique à l'ensemble de son empire logiciel et cloud - pourraient effectivement contourner le paywall du journal et lire des articles gratuitement en demandant au chatbot de générer des morceaux de texte qu'il a couvert, privant ainsi l'entreprise de l'argent de ses abonnements.
Sur la gauche se trouve une partie de la réponse générée par ChatGPT. À droite, l'article du New York Times. Le texte correspondant est en rouge.
Mais OpenAI n'est pas d'accord et demande au tribunal de rejeter l'affaire
OpenAI a toutefois riposté cette semaine à ces allégations en demandant au tribunal de rejeter l'affaire. La startup a estimé que les preuves fournies par le journal « semblent avoir été des efforts prolongés et étendus pour pirater les modèles d'OpenAI », et a nié que ChatGPT puisse détourner les gens des paywall, ajoutant que les gens n'utilisent pas le chatbot pour lire des articles publiés de toute façon.
OpenAI a allégué que « 100 exemples dans lesquels une version du modèle GPT-4 d'OpenAI a soi-disant généré plusieurs paragraphes du contenu du Times en réponse à des invites de l'utilisateur » ne reflètent pas la façon dont les gens normaux utilisent ChatGPT.
Au contraire, il aurait fallu au Times « des dizaines de milliers de tentatives pour générer » ces supposés « résultats hautement anormaux » en « ciblant et en exploitant un bogue » qu'OpenAI affirme s'être maintenant « engagée à corriger ».
Selon OpenAI, cette activité équivaut à des « attaques fabriquées » par un « tueur à gages », qui aurait piraté les modèles OpenAI jusqu'à ce qu'ils hallucinent du faux contenu du NYT ou régurgitent des données d'entraînement pour reproduire les articles du NYT. Le NYT aurait payé pour ces « attaques » afin de recueillir des preuves à l'appui des affirmations du Times selon lesquelles les produits d'OpenAI mettent en péril son journalisme en régurgitant prétendument des reportages et en volant l'audience du Times.
OpenAI n’a pas nommé la personne qu’elle qualifie de « tueur à gages » et n’a pas accusé le journal d’enfreindre les lois anti-piratage.
Dans une précédente tentative de décrédibiliser le New York Times, OpenAI avait indiqué :
Nos discussions avec le New York Times semblaient progresser de manière constructive jusqu'à notre dernière communication du 19 décembre. Les négociations portaient sur un partenariat de grande valeur autour de l'affichage en temps réel avec attribution dans ChatGPT, dans lequel le New York Times gagnerait un nouveau moyen de se connecter avec ses lecteurs existants et nouveaux, et nos utilisateurs auraient accès à leurs reportages. Nous avions expliqué au New York Times que, comme toute source unique, son contenu ne contribuait pas de manière significative à la formation de nos modèles existants et n'aurait pas non plus suffisamment d'impact pour les formations futures. Le procès qu'ils ont intenté le 27 décembre - dont nous avons pris connaissance en lisant le New York Times - nous a surpris et déçus.
En cours de route, ils ont mentionné avoir constaté une certaine régurgitation de leur contenu, mais ils ont refusé à plusieurs reprises de partager des exemples, malgré notre engagement à enquêter et à résoudre les problèmes. Nous avons montré à quel point nous prenons cette question au sérieux, comme en juillet, lorsque nous avons supprimé une fonction de ChatGPT immédiatement après avoir appris qu'elle pouvait reproduire du contenu en temps réel de manière involontaire.
Il est intéressant de noter que les régurgitations provoquées par le New York Times semblent provenir d’articles vieux de plusieurs années qui ont proliféré sur plusieurs sites Web tiers. Il semble qu’ils aient intentionnellement manipulé les invites, comprenant souvent de longs extraits d’articles, afin de faire régurgiter notre modèle. Même lorsqu’ils utilisent de telles invites, nos modèles ne se comportent généralement pas comme le laisse entendre le New York Times, ce qui suggère qu’ils ont soit demandé au modèle de régurgiter, soit sélectionné leurs exemples parmi de nombreuses tentatives.
En cours de route, ils ont mentionné avoir constaté une certaine régurgitation de leur contenu, mais ils ont refusé à plusieurs reprises de partager des exemples, malgré notre engagement à enquêter et à résoudre les problèmes. Nous avons montré à quel point nous prenons cette question au sérieux, comme en juillet, lorsque nous avons supprimé une fonction de ChatGPT immédiatement après avoir appris qu'elle pouvait reproduire du contenu en temps réel de manière involontaire.
Il est intéressant de noter que les régurgitations provoquées par le New York Times semblent provenir d’articles vieux de plusieurs années qui ont proliféré sur plusieurs sites Web tiers. Il semble qu’ils aient intentionnellement manipulé les invites, comprenant souvent de longs extraits d’articles, afin de faire régurgiter notre modèle. Même lorsqu’ils utilisent de telles invites, nos modèles ne se comportent généralement pas comme le laisse entendre le New York Times, ce qui suggère qu’ils ont soit demandé au modèle de régurgiter, soit sélectionné leurs exemples parmi de nombreuses tentatives.
Le New York Times réplique
Ci-dessous un extrait du dépôt du New York Times.
Ne disposant d'aucun motif réel de rejet, OpenAI consacre une grande partie de son dossier à des déclarations grandiloquentes sur des questions qu'elle n'a pas abordées. Sa requête introduit pas moins de 19 documents extrinsèques, dont aucun ne peut être correctement pris en compte dans le cadre d'une motion de rejet, dans une soumission qui, sur près de 10 pages, ressemble plus à une pirouette qu'à un mémoire juridique.
Il est évident que l'affirmation d'OpenAI, qui attire l'attention, selon laquelle le Times a « piraté » ses produits est aussi peu pertinente que fausse. Comme le montre clairement la pièce J de la plainte, le Times a obtenu des exemples de mémorisation en demandant à GPT-4 d'écrire les premiers mots ou les premières phrases des articles du Times. Ce travail n'était nécessaire que parce qu'OpenAI ne divulgue pas le contenu qu'elle utilise pour entraîner ses modèles et alimenter ses produits destinés aux utilisateurs. Pourtant, selon OpenAI, le Times a commis un acte répréhensible en détectant le vol par OpenAI de son propre contenu protégé par le droit d'auteur. Le véritable grief d'OpenAI ne porte pas sur la manière dont le Times a mené son enquête, mais plutôt sur ce que cette enquête a révélé : que les défendeurs ont construit leurs produits en copiant le contenu du Times à une échelle sans précédent - un fait qu'OpenAI ne conteste pas et ne peut pas contester.
Bien qu'elle cherche à justifier ce comportement par tous les moyens possibles, OpenAI ne demande pas le rejet de l'allégation principale selon laquelle elle aurait violé les droits d'auteur du Times pour former et faire fonctionner ses derniers modèles. Contre les revendications qu'elle conteste, OpenAI avance principalement des arguments factuels qui ne peuvent être tranchés sur la base des plaidoiries. Tout d'abord, pour appuyer son argument de prescription pour les réclamations basées sur des modèles développés avant décembre 2020, OpenAI demande à cette Cour de faire une constatation factuelle que la composition des ensembles de données utilisés pour former ces modèles était « de notoriété publique » en 2020 - même si le chatbot "viral" ChatGPT d'OpenAI n'a été publié qu'en novembre 2022.
Deuxièmement, la demande d'OpenAI de rejeter la plainte pour violation contributive repose sur des faits contestés concernant le comportement des utilisateurs et exigerait que la Cour accepte son affirmation selon laquelle « dans le monde réel, les gens n'utilisent pas ChatGPT ou tout autre produit d'OpenAI dans ce but », malgré l'utilisation largement rapportée de ChatGPT pour contourner les paywalls.
Troisièmement, l'attaque d'OpenAI sur la plainte DMCA repose sur des questions de fait contestées concernant la « conception » du processus de formation de modèle d'OpenAI, qui ne peuvent pas être résolues avant la découverte de cette conception.
Quatrièmement, OpenAI demande à la Cour de rejeter la plainte pour concurrence déloyale par appropriation illicite en ignorant les allégations du Times concernant le parasitisme des défendeurs et en décidant que les recommandations de produits du Times ne sont pas générées par des « efforts semblables à des reportages », encore un autre argument prématuré. La découverte, et non le rejet, est justifiée pour résoudre chacune de ces réclamations bien déposées.
Source : plainte
Et vous ?
Quelle est votre opinion sur l’utilisation du contenu protégé par le droit d’auteur pour entraîner des modèles d’intelligence artificielle ?
Pensez-vous que les actions d’OpenAI constituent une utilisation équitable du contenu du New York Times ? Pourquoi ou pourquoi pas ?
Comment les entreprises technologiques devraient-elles équilibrer l’innovation avec le respect des droits d’auteur ?
Quelles mesures les éditeurs de contenu devraient-ils prendre pour protéger leurs œuvres contre l’utilisation non autorisée par des tiers ?
Le ‘piratage’ allégué par OpenAI change-t-il votre perspective sur la sécurité et l’éthique des technologies d’intelligence artificielle ?
Quel impact pensez-vous que cette affaire aura sur l’avenir des relations entre les médias et les entreprises d’IA ?