OpenAI affirme que le New York Times a trompé ChatGPT pour qu'il copie ses articles.

Malgré un procès intenté le mois dernier, l'entreprise IA souhaite toujours travailler avec le quotidien

Le 9 janvier 2024 à 08:32, par Stéphane le calme

56PARTAGES

OpenAI affirme que le New York Times a trompé ChatGPT pour qu'il copie ses articles.
Malgré un procès intenté le mois dernier, l'entreprise IA souhaite toujours travailler avec le quotidien

OpenAI a réagi publiquement à une action en justice intentée par le New York Times en matière de droits d'auteur, qualifiant l'affaire de « sans fondement » et déclarant qu'elle espérait toujours un partenariat avec l'organe de presse. Dans un billet de blog, OpenAI a déclaré que le Times « ne raconte pas toute l'histoire ». L'entreprise a particulièrement contesté les affirmations selon lesquelles son outil d'IA ChatGPT reproduisait mot pour mot les articles du Times, arguant que le Times avait manipulé les messages-guides pour y inclure des extraits régurgités d'articles. « Même en utilisant de telles invites, nos modèles ne se comportent généralement pas de la manière dont le New York Times l'insinue, ce qui suggère qu'ils ont soit donné l'ordre au modèle de les régurgiter, soit choisi leurs exemples parmi de nombreuses tentatives », a déclaré OpenAI.

En août, nous avons appris que le New York Times envisageait de rejoindre la légion croissante de créateurs qui poursuivent les sociétés d'IA pour détournement de leur contenu : le quotidien a déclaré être contre l'utilisation de son contenu sans son accord en mettant à jour ses conditions d'utilisation. Le Times affirme avoir tenté de négocier avec OpenAI des accords concernant la possibilité pour l'entreprise d'IA d'obtenir une licence pour son matériel, mais ces négociations ne se sont pas déroulées sans heurts. Quelques mois après que l'entreprise a envisagé des poursuites en justice, puis a décidé de passer à l'acte en déposant une plainte.

Le Times cible diverses entreprises sous l'égide d'OpenAI, ainsi que Microsoft, un partenaire OpenAI qui l'utilise à la fois pour alimenter son service Copilot et a contribué à fournir l'infrastructure pour la formation du grand modèle linguistique GPT. Mais la poursuite va bien au-delà de l'utilisation de matériel protégé par le droit d'auteur dans la formation, alléguant que les logiciels basés sur OpenAI contourneront volontiers le paywall du Times et attribueront au Times des informations erronées hallucinées.

Sur la gauche se trouve une partie de la réponse générée par ChatGPT. À droite, l'article du New York Times. Le texte correspondant est en rouge.

La réaction d'OpenAI à la plainte

Dans un billet de blog, OpenAI a assuré que son objectif est de développer des outils d'IA qui permettent aux gens de résoudre des problèmes autrement hors de portée : « Des personnes du monde entier utilisent déjà notre technologie pour améliorer leur vie quotidienne. Des millions de développeurs et plus de 92 % des entreprises du classement Fortune 500 s'appuient sur nos produits aujourd'hui ».

Et de continuer en disant « bien que nous ne soyons pas d'accord avec les affirmations de la plainte du New York Times, nous y voyons une occasion de clarifier notre activité, notre intention et la manière dont nous construisons notre technologie ».

L'entreprise indique que sa position peut être résumée en quatre points :

Nous collaborons avec les organismes de presse et créons de nouvelles opportunités.
La formation est une utilisation équitable, mais nous offrons une option de refus parce que c'est la bonne chose à faire.
La "régurgitation" est un bogue rare que nous nous efforçons de réduire à zéro.
Le New York Times ne raconte pas toute l'histoire.

Ci-dessous, voici comment OpenAI a développé ces points :

Nous collaborons avec les organismes de presse et créons de nouvelles opportunités

Dans le cadre de notre processus de conception technologique, nous nous efforçons de soutenir les organismes de presse. Nous avons rencontré des dizaines d'entre eux, ainsi que des organisations sectorielles de premier plan telles que la News/Media Alliance, afin d'explorer les possibilités, de discuter de leurs préoccupations et de proposer des solutions. Notre objectif est d'apprendre, d'éduquer, d'écouter les commentaires et de nous adapter.

Notre objectif est de soutenir un écosystème de l'information sain, d'être un bon partenaire et de créer des opportunités mutuellement bénéfiques. C'est dans cette optique que nous avons établi des partenariats avec des organismes de presse afin d'atteindre ces objectifs :

Déployer nos produits pour aider les journalistes et les rédacteurs en les assistant dans des tâches fastidieuses telles que l'analyse de documents publics volumineux et la traduction d'articles.
Apprendre à nos modèles d'IA à connaître le monde en s'entraînant sur des contenus historiques supplémentaires non accessibles au public.
Afficher du contenu en temps réel avec attribution dans ChatGPT, offrant ainsi aux éditeurs de presse de nouveaux moyens de communiquer avec leurs lecteurs.

Nos premiers partenariats avec Associated Press, Axel Springer, American Journalism Project et NYU donnent un aperçu de notre approche.

La formation est un usage loyal, mais nous proposons une option de refus parce que c'est la bonne chose à faire

L'entraînement de modèles d'IA à l'aide de matériel internet accessible au public est un usage loyal, comme l'attestent des précédents anciens et largement acceptés. Nous considérons que ce principe est équitable pour les créateurs, nécessaire pour les innovateurs et essentiel pour la compétitivité des États-Unis.

Le principe selon lequel la formation de modèles d'IA est autorisée en tant qu'usage loyal est soutenu par un large éventail d'universitaires, d'associations de bibliothèques, de groupes de la société civile, de startups, d'entreprises américaines de premier plan, de créateurs, d'auteurs et d'autres personnes qui ont récemment soumis des commentaires à l'Office américain du droit d'auteur. D'autres régions et pays, dont l'Union européenne, le Japon, Singapour et Israël, ont également des lois qui autorisent les modèles de formation sur des contenus protégés par le droit d'auteur, ce qui constitue un avantage pour l'innovation, le progrès et l'investissement dans l'IA.

Cela étant dit, le droit juridique est moins important pour nous que le fait d'être de bons citoyens. Nous avons pris la tête de l'industrie de l'IA en proposant aux éditeurs une procédure de retrait simple (que le New York Times a adoptée en août 2023) pour empêcher nos outils d'accéder à leurs sites.

La « régurgitation » est un bogue rare que nous nous efforçons de réduire à zéro

Nos modèles ont été conçus et formés pour apprendre des concepts afin de les appliquer à de nouveaux problèmes.

La mémorisation est une défaillance rare du processus d'apprentissage sur laquelle nous progressons continuellement, mais elle est plus fréquente lorsqu'un contenu particulier apparaît plus d'une fois dans les données d'apprentissage, par exemple si des éléments de ce contenu apparaissent sur de nombreux sites web publics différents. Nous avons donc mis en place des mesures pour limiter la mémorisation involontaire et empêcher la régurgitation dans les résultats des modèles. Nous attendons également de nos utilisateurs qu'ils agissent de manière responsable ; manipuler intentionnellement nos modèles pour les régurgiter n'est pas une utilisation appropriée de notre technologie et va à l'encontre de nos conditions d'utilisation.

Tout comme les êtres humains acquièrent une vaste formation pour apprendre à résoudre de nouveaux problèmes, nous voulons que nos modèles d'IA observent l'ensemble des informations disponibles dans le monde, y compris dans toutes les langues, cultures et secteurs d'activité. Étant donné que les modèles apprennent à partir de l'énorme ensemble des connaissances humaines, tout secteur, y compris l'actualité, ne représente qu'une infime partie de l'ensemble des données d'apprentissage, et toute source de données, y compris le New York Times, n'a pas d'importance pour l'apprentissage prévu du modèle.

Le New York Times ne dit pas toute l'histoire

Nos discussions avec le New York Times semblaient progresser de manière constructive jusqu'à notre dernière communication du 19 décembre. Les négociations portaient sur un partenariat de grande valeur autour de l'affichage en temps réel avec attribution dans ChatGPT, dans lequel le New York Times gagnerait un nouveau moyen de se connecter avec ses lecteurs existants et nouveaux, et nos utilisateurs auraient accès à leurs reportages. Nous avions expliqué au New York Times que, comme toute source unique, son contenu ne contribuait pas de manière significative à la formation de nos modèles existants et n'aurait pas non plus suffisamment d'impact pour les formations futures. Le procès qu'ils ont intenté le 27 décembre - dont nous avons pris connaissance en lisant le New York Times - nous a surpris et déçus.

En cours de route, ils ont mentionné avoir constaté une certaine régurgitation de leur contenu, mais ils ont refusé à plusieurs reprises de partager des exemples, malgré notre engagement à enquêter et à résoudre les problèmes. Nous avons montré à quel point nous prenons cette question au sérieux, comme en juillet, lorsque nous avons supprimé une fonction de ChatGPT immédiatement après avoir appris qu'elle pouvait reproduire du contenu en temps réel de manière involontaire.

Il est intéressant de noter que les régurgitations provoquées par le New York Times semblent provenir d’articles vieux de plusieurs années qui ont proliféré sur plusieurs sites Web tiers. Il semble qu’ils aient intentionnellement manipulé les invites, comprenant souvent de longs extraits d’articles, afin de faire régurgiter notre modèle. Même lorsqu’ils utilisent de telles invites, nos modèles ne se comportent généralement pas comme le laisse entendre le New York Times, ce qui suggère qu’ils ont soit demandé au modèle de régurgiter, soit sélectionné leurs exemples parmi de nombreuses tentatives.

Malgré leurs affirmations, cette utilisation abusive ne constitue pas une activité typique ou autorisée des utilisateurs et ne remplace pas le New York Times. Quoi qu’il en soit, nous rendons continuellement nos systèmes plus résistants aux attaques adverses visant à régurgiter les données d’entraînement, et avons déjà fait de nombreux progrès dans nos modèles récents.

Conclusion

La société a récemment présenté un argument similaire à la Chambre des Lords du Royaume-Uni, affirmant qu'aucun système d'IA comme ChatGPT ne peut être construit sans accès à du contenu protégé par le droit d'auteur. Il a déclaré que les outils d’IA doivent incorporer des œuvres protégées par le droit d’auteur pour « représenter toute la diversité et l’étendue de l’intelligence et de l’expérience humaines ».

Mais OpenAI a déclaré qu'il espérait toujours pouvoir poursuivre les négociations avec le Times pour un partenariat similaire à ceux qu'il a signés avec Axel Springer et The Associated Press :

Nous considérons que le procès du New York Times est sans fondement. Néanmoins, nous espérons un partenariat constructif avec le New York Times et respectons sa longue histoire, qui inclut la couverture du premier réseau neuronal fonctionnel il y a plus de 60 ans et la défense des libertés du premier amendement.

Nous sommes impatients de poursuivre notre collaboration avec les organismes de presse, afin de les aider à accroître leur capacité à produire un journalisme de qualité en réalisant le potentiel de transformation de l’IA.

Source : OpenAI

Et vous ?

Que pensez-vous de l'argumentation d'OpenAI ?

« Il est intéressant de noter que les régurgitations provoquées par le New York Times semblent provenir d’articles vieux de plusieurs années qui ont proliféré sur plusieurs sites Web tiers. Il semble qu’ils aient intentionnellement manipulé les invites, comprenant souvent de longs extraits d’articles, afin de faire régurgiter notre modèle. Même lorsqu’ils utilisent de telles invites, nos modèles ne se comportent généralement pas comme le laisse entendre le New York Times, ce qui suggère qu’ils ont soit demandé au modèle de régurgiter, soit sélectionné leurs exemples parmi de nombreuses tentatives ». Qu'en pensez-vous ?

Que pensez-vous du fait que l'article d'OpenAI n'aborde qu'une partie du problème soulevé par le New York Times (une génération de texte qui est la copie conforme d'un article paru chez le quotidien), mais n'aborde pas par exemple les hallucinations de ChatGPT qui indexent le New York Times comme source, entachant sa réputation ou encore la concurrence déloyale ?

Quelle est votre opinion sur l’utilisation du contenu protégé par le droit d’auteur pour entraîner les logiciels d’IA ?

Pensez-vous que les créateurs de contenu devraient être rémunérés pour l’utilisation de leurs œuvres par les entreprises d’IA ?

Quels sont les risques et les opportunités liés à la création de médias par l’IA ?

Comment distinguer le contenu généré par l’IA du contenu original ?

Quelles sont les mesures à prendre pour garantir une utilisation éthique et légale de l’IA ?

Vous avez lu gratuitement 249 articles depuis plus d'un an.
Soutenez le club developpez.com en souscrivant un abonnement pour que nous puissions continuer à vous proposer des publications.

Une erreur dans cette actualité ? Signalez-nous-la !

Votre nom : Votre e-mail :

Décrivez l'erreur que vous souhaitez porter à notre connaissance :