Cecilia Ziniti, avocate de la Silicon Valley, a analysé la plainte du quotidien.
En août, nous avons appris que le New York Times envisageait de rejoindre la légion croissante de créateurs qui poursuivent les sociétés d'IA pour détournement de leur contenu : le quotidien a déclaré être contre l'utilisation de son contenu sans son accord en mettant à jour ses conditions d'utilisation. Le Times a tenté de négocier avec OpenAI des accords concernant la possibilité pour l'entreprise d'IA d'obtenir une licence pour son matériel, mais ces négociations ne se sont pas déroulées sans heurts. Quelques mois après que l'entreprise a envisagé des poursuites en justice, elle a décidé de passer à l'acte en déposant une plainte.
Le Times cible diverses entreprises sous l'égide d'OpenAI, ainsi que Microsoft, un partenaire OpenAI qui l'utilise à la fois pour alimenter son service Copilot et a contribué à fournir l'infrastructure pour la formation du grand modèle linguistique GPT. Mais la poursuite va bien au-delà de l'utilisation de matériel protégé par le droit d'auteur dans la formation, alléguant que les logiciels basés sur OpenAI contourneront volontiers le paywall du Times et attribueront au Times des informations erronées hallucinées.
Une concurrence déloyale
Comme indiqué dans le procès, le Times allègue qu’OpenAI et les grands modèles linguistiques (LLM) de Microsoft, qui alimentent ChatGPT et Copilot, « peuvent générer une sortie qui récite textuellement le contenu du Times, le résume fidèlement et imite son style expressif ». Cela « mine et endommage » la relation du Times avec ses lecteurs, affirme le média, tout en le privant « d’abonnements, de licences, de publicité et de revenus d’affiliation ».
La plainte affirme également que ces modèles d’IA « menacent un journalisme de haute qualité » en nuisant à la capacité des médias à protéger et à monétiser le contenu. « Grâce au Bing Chat de Microsoft (récemment rebaptisé « Copilot ») et au ChatGPT d’OpenAI, les accusés cherchent à profiter gratuitement de l’investissement massif du Times dans son journalisme en l’utilisant pour créer des produits de substitution sans autorisation ni paiement », indique la plainte.
Pendant ce temps, la publication de modèles d’IA formés sur le contenu du Times s’est avérée « extrêmement lucrative » à la fois pour Microsoft et pour OpenAI, indique la plainte.
Cette dernière ne comprend pas de demande monétaire exacte. Mais le quotidien affirme que les accusés devraient être tenus responsables de « milliards de dollars de dommages-intérêts légaux et réels » liés à « la copie et l’utilisation illégales des œuvres d’une valeur unique du Times ». Il appelle également les entreprises à détruire tous les modèles de chatbot et les données de formation qui utilisent du matériel protégé par le droit d'auteur du Times.
La construction d'un « un modèle économique basé sur la violation massive du droit d’auteur »
La plainte cite plusieurs exemples de ChatGPT récitant des extraits de journalistes du New York Times presque entièrement mot pour mot. Un exemple cité dans les documents judiciaires est une enquête en cinq parties sur l'industrie des taxis à New York, publiée en 2019. Le Times affirme que son enquête a porté sur 600 entretiens, plus de 100 demandes de dossiers et l'examen de milliers de pages de documents tels que des relevés bancaires.
« OpenAI n'a joué aucun rôle dans la création de ce contenu, mais avec un minimum d'incitations, il en récitera de grandes parties textuellement », indique la plainte.
La poursuite allègue qu'il est facile d'amener des systèmes alimentés par GPT à proposer du contenu qui est normalement protégé par le paywall du Times. La poursuite montre un certain nombre d'exemples de GPT-4 reproduisant de grandes sections d'articles presque textuellement. La poursuite comprend des captures d'écran de ChatGPT recevant le titre d'un article du New York Times et demandant le premier paragraphe, ce qu'il livre. Obtenir le texte qui suit est apparemment aussi simple que de demander à plusieurs reprises le paragraphe suivant.
L'analyse d'une avocate de la Silicon Valley🧵 The historic NYT v. @OpenAI lawsuit filed this morning, as broken down by me, an IP and AI lawyer, general counsel, and longtime tech person and enthusiast.
— Cecilia Ziniti (@CeciliaZin) December 27, 2023
Tl;dr - It's the best case yet alleging that generative AI is copyright infringement. Thread. 👇 pic.twitter.com/Zqbv3ekLWt
Premièrement, la plainte expose clairement l'allégation de violation du droit d'auteur, soulignant « l'accès et la similitude substantielle » entre les articles du NYT et les résultats de ChatGPT. Fait clé*: NYT est le plus grand ensemble de données propriétaires de Common Crawl utilisé pour entraîner GPT.
La preuve visuelle de la copie dans la plainte est flagrante. Texte copié en rouge, nouveaux mots GPT en noir*: un contraste conçu pour influencer un jury. Voir la pièce jointe ici. Mon avis ? OpenAI ne peut pas vraiment défendre cette pratique sans quelques modifications importantes des instructions et de nombreux litiges sur le fonctionnement de la technologie. Il sera plus intelligent de trouver un règlement à l'amiable que de se battre.
Sur la gauche se trouve une partie de la réponse générée par ChatGPT. À droite, l'article du New York Times. Le texte correspondant est en rouge.
Le droit d'auteur protège la créativité, pas l'effort
Le NYT est un excellent plaignant. Il ne s'agit pas seulement d'articles ; c'est une question d'originalité et de processus créatif. Leur journalisme d’investigation, à l’instar d’un exposé approfondi sur les prêts de taxi cité dans la plainte, va au-delà du simple travail : c’est la créativité qui est à la base.
Mais voici une particularité : le droit d'auteur protège la créativité, pas l'effort. Même si les 600 interviews de l'article sur les taxis sont impressionnantes, c'est l'innovation en matière de reportage qui compte sur le plan juridique. Soit dit en passant, cela contraste très fortement avec le procès contre GitHub Copilot, qui ne citait que quelques lignes de code open source.
Une possibilité d'obtenir des dommages-intérêts
L'échec des négociations laisse présager des dommages pour le New York Times. OpenAI est déjà sous licence auprès d'autres médias comme Politico.
Le refus d'OAI de conclure un accord avec le New York Times (qui affirme l'avoir contacté en avril) pourrait s'avérer coûteux, d'autant plus que les bénéfices d'OpenAI augmentent et que de plus en plus d'exemples se produisent. Mon hypothèse épicée ? OpenAI pensait pouvoir s'en sortir avec un montant à 7 ou 8 chiffres. Le NYT recherche davantage et une redevance permanente.
La plainte décrit OpenAI comme étant axé sur le profit et fermé. Cela contraste avec le bien public du journalisme. Ce discours pourrait s’avérer puissant devant les tribunaux, en mettant en balance la valeur sociétale du droit d’auteur et l’innovation technologique. Notamment, cet équilibre entre le bien et le mal a été remis en question dans toutes les affaires majeures de droit d'auteur - depuis l'affaire Betamax jusqu'à la conclusion de Feist sur les annuaires téléphoniques non protégés par le droit d'auteur. La plainte mentionne même le drame du conseil d'administration et de Sam Altman.
Les allégations de désinformation ajoutent une touche astucieuse. La plainte évoque quelque chose dont les gens ont peur - les hallucinations - et en fait un argument, citant des exemples où des éléments d'articles du New York Times ont été inventés. Exemple le plus mémorable ? Alléguant que Bing dit que le New York Times a publié un article dans lequel il déclare que le jus d'orange provoque un lymphome.
Autre point intéressant : le New York Times a de très bons avocats. Susman Godfrey jouit d'une excellente réputation et d'une solide expérience en matière de technologie. Il ne s’agit pas d’une ponction rapide comme les poursuites intentées une semaine après ChatGPT*; c'est un défi juridique stratégique.
Cette affaire pourrait constituer un tournant décisif pour l’IA et le droit d’auteur. Beaucoup de gens disent qu’OpenAI aurait dû payer. Nous verrons!
Ce qui est en jeu? L’avenir de l’innovation en IA et la protection du contenu créatif. Restez à l'écoute.
Conclusion
OpenAI a réagi au procès en déclarant qu’il respecte les droits des créateurs et des propriétaires de contenu et qu’il est disposé à travailler avec eux pour s’assurer qu’ils bénéficient de la technologie de l’IA et de nouveaux modèles de revenus. Il a également affirmé qu’il avait eu des conversations productives et constructives avec le NYT et qu’il était surpris et déçus par ce développement. Il a exprimé son espoir de trouver un moyen mutuellement bénéfique de collaborer, comme il le fait avec de nombreux autres éditeurs.
Le procès du NYT est le dernier d’une série de cas similaires, dont un intenté par plus d’une douzaine d’auteurs en septembre contre OpenAI pour l’utilisation de leurs écrits. Les modèles d’apprentissage du langage ont fait l’objet d’un examen accru depuis qu’ils ont explosé en popularité l’année dernière, les médias d’information étant particulièrement préoccupés par le fait que ces outils propagent des informations erronées qui leur sont attribuées et utilisent leur contenu sans incitation à cliquer sur la source originale.
L’issue du procès du NYT contre Microsoft et OpenAI pourrait avoir des implications importantes pour l’industrie de l’IA générative, qui repose largement sur l’utilisation de données provenant de sources publiques pour entraîner ses modèles. Le procès soulève des questions juridiques et éthiques sur la propriété, l’utilisation et la réglementation des données dans le domaine de l’IA, ainsi que sur les droits et les responsabilités des créateurs, des utilisateurs et des fournisseurs de contenu. Il met également en évidence les tensions entre les intérêts commerciaux et les valeurs sociales des acteurs impliqués dans le développement et le déploiement de l’IA.
Source : Cecilia Ziniti
Et vous ?
Quelle est votre opinion sur le procès du NYT contre Microsoft et OpenAI ? Pensez-vous qu’il soit justifié ou non ?
Quels sont les avantages et les inconvénients de l’utilisation de l’IA générative pour créer du contenu ? Comment cela affecte-t-il les créateurs et les consommateurs de contenu ?
Comment les droits d’auteur et la propriété intellectuelle devraient-ils être appliqués et respectés dans le domaine de l’IA ? Quels sont les défis et les opportunités pour les régulateurs et les législateurs ?
Quelles sont les implications du développement et du déploiement de l’IA générative ? Comment cela influence-t-il la confiance, la crédibilité et la responsabilité des sources d’information ?
Quelles sont les meilleures pratiques et les normes pour utiliser l’IA générative de manière responsable et bénéfique ? Comment les utilisateurs peuvent-ils s’informer et se protéger contre les risques potentiels de l’IA générative ?