Le New York Times dit non à l'utilisation de son contenu comme données d'entraînement pour une IA sans son accord

Et menace de poursuites judiciaires

Le 2023-08-15 19:49:40, par Stéphane le calme, Chroniqueur Actualités

Le New York Times (NYT), l’un des plus grands journaux américains, a récemment mis à jour ses conditions d’utilisation pour empêcher que son contenu soit utilisé pour entraîner des modèles d’intelligence artificielle (IA) sans son autorisation écrite. Cette décision intervient alors que de nombreuses entreprises technologiques exploitent des applications d’IA basées sur le langage, telles que ChatGPT et Google Bard, qui ont acquis leurs capacités grâce à des collectes massives et non autorisées de données sur Internet.

Début août, le New York Times a mis à jour ses conditions d'utilisation pour interdire le scrapping de ses articles et images pour la formation à l'IA. Cette décision intervient à un moment où les entreprises technologiques ont continué à monétiser les applications de langage d'IA telles que ChatGPT et Google Bard, qui ont acquis leurs capacités grâce à des collectes massives non autorisées de données Internet.

Le NYT interdit l’utilisation de son contenu, qui comprend les articles, les vidéos, les images, le design, les métadonnées ou les compilations, pour le développement de tout logiciel, notamment pour l’entraînement d’un système d’apprentissage automatique ou d’IA. Il interdit également l’utilisation d’outils automatisés, comme les robots d’indexation, qui visent à utiliser, accéder ou collecter ce contenu sans son consentement écrit. Le NYT précise que le non-respect de ces restrictions peut entraîner des amendes ou des sanctions civiles, pénales ou administratives.

Dans la section 2.1 de ses conditions d'utilisation, il est écrit :

Envoyé par New York Times

Le contenu des Services, y compris le Site, est destiné à votre usage personnel et non commercial. Tous les documents publiés ou disponibles sur les Services (y compris, mais sans s'y limiter, les textes, photographies, images, illustrations, conceptions, clips audio, clips vidéo, "look and feel", métadonnées, données ou compilations, tous également connus sous le nom de " Contenu") sont protégés par le droit d'auteur et détenus ou contrôlés par The New York Times Company ou la partie créditée comme fournisseur du Contenu. La New York Times Company détient également le droit d'auteur sur la sélection, la coordination, la compilation et l'amélioration de ce Contenu (« Arrangement »). Vous devez respecter tous les avis, informations ou restrictions de droits d'auteur supplémentaires contenus dans tout Contenu accessible via le Service. L'utilisation non commerciale n'inclut pas l'utilisation du Contenu sans le consentement écrit préalable de The New York Times Company en relation avec : (1) le développement de tout programme logiciel, y compris, mais sans s'y limiter, la formation d'un machine learning ou d'un système d'intelligence artificielle ( IA) ; ou (2) fournir des ensembles de données archivés ou mis en cache contenant du Contenu à une autre personne ou entité.

Plus bas, dans la section 4.1, les conditions stipulent que sans le consentement écrit préalable du NYT, personne ne peut « utiliser le contenu pour le développement de tout programme logiciel, y compris, mais sans s'y limiter, la formation d'un système d'apprentissage automatique ou d'intelligence artificielle (IA) » :

Envoyé par New York Times

4. UTILISATION INTERDITE DES SERVICES

4.1 Vous ne pouvez pas accéder ou utiliser, ou tenter d'accéder ou d'utiliser, les Services pour prendre des mesures qui pourraient nous nuire ou nuire à un tiers. Vous ne pouvez pas utiliser les Services en violation des lois applicables, y compris les contrôles et les sanctions à l'exportation, ou en violation de notre propriété intellectuelle ou de celle d'un tiers ou d'autres droits de propriété ou légaux. Vous acceptez en outre de ne pas tenter (ni d'encourager ou de soutenir la tentative de quiconque) de contourner, d'effectuer une ingénierie inverse, de décrypter ou de modifier ou d'interférer avec les Services, ou tout contenu des Services, ou de faire une utilisation non autorisée des Services. Sans le consentement écrit préalable de NYT, vous ne devez pas :

(1) accéder à toute partie des Services, du Contenu, des données ou des informations auxquelles vous n'avez pas la permission ou l'autorisation d'accéder ou pour lesquelles NYT a révoqué votre accès ;

(2) utiliser des robots, des scripts, des services, des logiciels ou tout dispositif, outil ou processus manuel ou automatique conçu pour extraire des données ou récupérer le contenu, les données ou les informations des services, ou utiliser, accéder ou collecter le contenu des données ou informations des Services utilisant des moyens automatisés ;

(3) utiliser le Contenu pour le développement de tout programme logiciel, y compris, mais sans s'y limiter, la formation d'un système d'apprentissage automatique ou d'intelligence artificielle (IA).

(4) utiliser des services, des logiciels ou tout dispositif, outil ou processus manuel ou automatique conçu pour contourner toute restriction, condition ou mesure technologique qui contrôle l'accès aux Services de quelque manière que ce soit, y compris le remplacement de toute fonction de sécurité ou le contournement ou le contournement de tout accès contrôler ou utiliser les limites des Services ;

(5) mettre en cache ou archiver le Contenu (à l'exception de l'utilisation par un moteur de recherche public pour créer des index de recherche) ;

(6) prendre des mesures qui imposent une charge déraisonnable ou disproportionnée sur notre réseau ou notre infrastructure ; et

(7) faire tout ce qui pourrait désactiver, endommager ou modifier le fonctionnement ou l'apparence des Services, y compris la présentation de publicités.

4.2 S'engager dans une utilisation interdite des Services peut entraîner des sanctions civiles, pénales et/ou administratives, des amendes ou des sanctions à l'encontre de l'utilisateur et de ceux qui l'assistent.

Google va utiliser tout ce que vous allez publier en ligne comme données d'entraînement de son IA

Cette mesure préventive du NYT pourrait être une réponse à une récente modification de la politique de confidentialité de Google, qui révèle que le géant de la recherche peut collecter des données publiques sur le web pour entraîner ses différents services d’IA, comme Bard ou Cloud AI.

Dans la mise à jour de sa politique de confidentialité, il est écrit :

Envoyé par Google

Recherche et développement : Google utilise les informations pour améliorer ses services et développer de nouveaux produits, ainsi que de nouvelles fonctionnalités et technologies utiles à ses utilisateurs et au public. Par exemple, Google utilise des informations disponibles publiquement pour contribuer à l'entraînement de ses modèles d'IA, et concevoir des produits et des fonctionnalités comme Google Traduction, Bard et les capacités d'IA de Cloud

Le message est disponible à la section Conformité et coopération avec des organismes de réglementation dans la partie Finalités commerciales pour lesquelles des informations peuvent être utilisées ou divulguées.

Il s'agit d'une clause inhabituelle pour une politique de confidentialité. En règle générale, ces politiques décrivent la manière dont une entreprise utilise les informations que vous publiez sur les propres services de l'entreprise. Ici, il semble que Google se réserve le droit de récolter et d'exploiter les données publiées sur n'importe quelle partie du Web public, comme si l'ensemble d'Internet était le propre terrain de jeu de l'IA de l'entreprise.

Une mesure potentiellement efficace ?

Aussi menaçant que cela puisse paraître, les conditions d'utilisation restrictives n'ont pas encore arrêté le scrapping des données sur Internet dans le but de les utiliser comme données d'apprentissage automatique. Tous les grands modèles de langage disponibles aujourd'hui, y compris GPT-4 d'OpenAI, Claude 2 d'Anthropic, Llama 2 de Meta et PaLM 2 de Google, ont été formés sur de grands ensembles de données de matériaux extraits d'Internet. À l'aide d'un processus appelé apprentissage non supervisé, les données Web ont été introduites dans des réseaux de neurones, permettant aux modèles d'IA d'acquérir un sens conceptuel du langage en analysant les relations entre les mots.

Des services d’IA populaires, comme ChatGPT d’OpenAI, sont donc entraînés sur d’énormes ensembles de données qui pourraient contenir des matériaux protégés par le droit d’auteur ou d’autres droits, extraits du web sans l’autorisation du créateur original. Cela a conduit à plusieurs procès contre OpenAI en raison de cette pratique.

Par exemple, deux auteurs américains ont poursuivi OpenAI devant le tribunal fédéral de San Francisco, affirmant dans un recours collectif proposé que la société avait abusé de leurs travaux pour « former » son populaire système d'intelligence artificielle générative ChatGPT.

Nous pouvons également citer la comédienne et auteure américaine Sarah Silverman qui a déposé une plainte contre Meta et OpenAI, les accusant d’avoir utilisé son œuvre sans son autorisation pour entraîner leurs modèles d’intelligence artificielle à générer du texte. Elle est rejointe par deux autres auteurs, Christopher Golden et Richard Kadrey, qui affirment que leurs livres ont également été exploités par les deux entreprises sans leur consentement.

Les plaignants citent comme preuve le fait que les modèles d’IA sont capables de résumer leurs livres lorsqu’ils sont sollicités. Par exemple, ChatGPT peut fournir un résumé du livre The Bedwetter de Sarah Silverman, publié en 2010, qui raconte son enfance marquée par l’énurésie. De même, LLaMA peut résumer les livres Ararat de Christopher Golden et Sandman Slim de Richard Kadrey, qui sont des romans fantastiques.

Conclusion

Le NYT n’est pas le seul média à s’inquiéter de l’utilisation de son contenu par l’IA. La semaine dernière, l’Associated Press et plusieurs autres organisations de presse ont publié une lettre ouverte affirmant qu’un « cadre juridique doit être élaboré pour protéger le contenu qui alimente les applications d’IA », entre autres préoccupations. OpenAI semble anticiper les défis juridiques à venir et a commencé à prendre des mesures qui pourraient viser à devancer certaines de ces critiques. Par exemple, OpenAI a récemment détaillé une méthode que les sites web peuvent utiliser pour bloquer son robot d’indexation GPTBot afin qu’il ne collecte pas les données de leurs sites web.

L’industrie de l’IA repose fortement sur les données pour améliorer ses modèles et ses services, mais cela entre en conflit avec les préoccupations des médias concernant la propriété et la protection de leurs données. Des considérations éthiques et juridiques se posent à mesure que l’IA et les médias collaborent dans la curation des actualités. Le NYT semble vouloir garder le contrôle sur son contenu et négocier au cas par cas avec les entreprises technologiques qui souhaitent l’utiliser pour entraîner leurs systèmes d’IA.

Source : NYT

Et vous ?

Quelle est votre opinion sur la décision du New York Times d’interdire aux fournisseurs d’IA de collecter son contenu ?
Pensez-vous que les entreprises technologiques devraient demander l’autorisation aux créateurs de contenu avant d’utiliser leurs données pour entraîner leurs modèles d’IA ?
Comment les médias en particulier, et d'autres entités en général, peuvent-ils protéger leur propriété intellectuelle tout en bénéficiant des innovations de l’IA ?

Discussion forum

97 commentaires

onilink_
Membre émérite

Envoyé par archqt

Pas évident, moi je lis des livres, imaginons des milliers. Ensuite j'écris un livre qui tient compte de mes lectures. Quelle différence avec l'entraînement de l'IA au final ?
Ensuite je comprends parfaitement les remarques de ceux dont les œuvres sont "pompées"

Absolument tout... ?

Comparer un LLM, un algorithme qui à la fâcheuse tendance à mémoriser ses entrées, mais qui ne connaît rien d'autre du monde que ces données la, avec un humain qui compresse et mémorise mal mais aussi de façon ultra subjective ses lectures tout en les mélangeant à son vécu... sérieusement?

Cela me semble très dangereux d'essayer de faire le lien entre les deux.

De plus il ne te faut pas une fraction de seconde pour pondre un livre. Et si tu fais du plagiat tu te prendras un procès.

OpenAI demandent à ce que leurs magouilles deviennent juridiquement légales. Cela n'apportera rien de bon pour personne, sauf pour eux.

le 07/10/2023 à 20:08
OrthodoxWindows
Membre émérite

Tant que GPT-4 ne bloque pas les publicités lors de son visionnage, pour Youtube ça ne devrait pas poser de problèmes.

le 08/04/2024 à 10:48
totozor
Membre expert

Quelle est votre opinion sur l’utilisation du contenu protégé par le droit d’auteur comme données d’entraînement pour les modèles d’IA ?
Je suis assez partagé, autant je peux comprendre qu'un auteur ne veut pas qu'on puisse contourner l'achat de son livre avec une IA.
Autant les auteurs doivent aussi admettre que leurs oeuvres sont publiques et il n'y a rien de choquant qu'une IA puisse faire un résumé de celles ci. Tout comme il n'est pas choquant qu'une IA résume la pensée d'un philosophe.
Pensez-vous que les entreprises d’IA devraient payer les auteurs dont les œuvres sont utilisées comme données d’entraînement ?
Ca les rendrait instantanément non viables, ça rendrait les IA existantes complètement protégées d'éventuel nouveau concurent.
Avez-vous déjà utilisé ou interagi avec un modèle d’IA qui a généré du contenu protégé par le droit d’auteur ? Si oui, comment avez-vous réagi ?
Probablement pas mais beaucoup de monde semble impressionné par les réponses à "écrit moi un texte à la façon de ..." donc c'est monnaie courante.

Envoyé par Stéphane le calme

ChatGPT tente désormais d’éviter de répondre aux sollicitations des utilisateurs avec des formulations exactes provenant d’œuvres protégées par le droit d’auteur, selon un article technique publié par un groupe de chercheurs en IA travaillant pour le pôle recherche de ByteDance.

C'est interressant parce que si l'article dit vrai ça veut dire que ChatGPT sait identifier les textes soumis au droit d'auteur et donc ne pourra pas se défendre en disant qu'ils ont traité une tonne de données aveuglément et qu'ils sont donc incapable d'identifier les données libres de droit des autres.

le 23/08/2023 à 7:42
_toma_
Membre averti

La question du comité : "Comment justifiez-vous de la légalité de votre collecte de données ?"
La réponse d'openAI : "Nous vous assurons que cette collecte de données est loyale."

Et la suite de leur réponse :

L'incertitude juridique sur les implications en matière de droit d'auteur de l'entraînement des systèmes d'IA impose des coûts substantiels aux développeurs d'IA et devrait donc être résolue de manière autoritaire.

Non mais vous êtes sérieux les gars ? Vous voulez bien faire de la thune mais vous voulez pas en dépenser donc il faudrait prendre une décision autoritaire (qui fasse abstraction de la loi ?) qui aille dans votre sens. C'est vraiment ça la réponse ? Ça me semble tellement hallucinant que je me demande si je comprends bien la phrase.

le 08/10/2023 à 18:28
Leruas
Membre éclairé

Heureusement qu'ils n'ont pas entrainé GPT-4 sur des vidéos TikTok

le 08/04/2024 à 21:24
Fagus
Membre expert
Envoyé par totozor

autant je peux comprendre qu'un auteur ne veut pas qu'on puisse contourner l'achat de son livre avec une IA.
Autant les auteurs doivent aussi admettre que leurs oeuvres sont publiques et il n'y a rien de choquant qu'une IA puisse faire un résumé de celles ci. Tout comme il n'est pas choquant qu'une IA résume la pensée d'un philosophe.

Je suis d'accord, mais je vois deux problème légaux :
1. que la société n'ait pas payé les documents d'entraînement . Si un particulier veut accéder à un contenu sous droit d'auteur, il n'a pas le droit de le télécharger sur un torrent. Je ne vois pas pourquoi une puissante société aurait le droit de le faire en toute impunité. Surtout que pour de nombreux contenu, une licence commerciale n'est pas la même qu'une licence d'utilisation pour un utilisateur. C'est comme si pour le prix d'un livre harry potter, j'avais le droit de faire un usage commercial du contenu...
2. que le modèle puisse reconstituer l'oeuvre si on lui demande (pour cela il semble qu'ils prennent des mesures techniques).
le 23/08/2023 à 13:11
onilink_
Membre émérite

Il n'y a rien d'étonnant, rien ne va de toute façon avec OpenAI, à commencer par leur nom.

Ils parlent de progrès et de développement scientifique mais ChatGPT n'est qu'une interface pimpée sur une techno qui existe déjà depuis au moins 3 ans. Il n'y a aucun apport scientifique de leur coté. Il n'ont même pas inventé les transformers sur quoi sont basé les LLM qu'ils utilisent (je crois que c'est Google qui en est à l'origine).

Leur "seul" apport c'est de dépenser des sommes considérables pour entraîner des modèles gigantesques relativement "cons" mais ont des performances qui dépendent de leur taille.

Tout le reste n'est que stratégie marketing et médiatique.
Habituer les utilisateurs à un service gratuit d'une techno qui parait révolutionnaire et qui est plutôt coûteuse de leur coté (ceux qui ont utilisé GPT3 avant que ChatGPT ne sorte savent qu'il y a un prix fixé au token) puis diminuer la qualité du service gratuit pour forcer à prendre un abonnement et essayer de rendre ça lucratif de leur coté.

le 01/09/2023 à 13:24
JRM73
Futur Membre du Club

@archqt

certes, mais toi, comme tu es un gars bien, tu les payes tes livres.

le 10/10/2023 à 14:35
kain_tn
Expert éminent

Envoyé par _toma_

La question du comité : "Comment justifiez-vous de la légalité de votre collecte de données ?"
La réponse d'openAI : "Nous vous assurons que cette collecte de données est loyale."

Et la suite de leur réponse :

Non mais vous êtes sérieux les gars ? Vous voulez bien faire de la thune mais vous voulez pas en dépenser donc il faudrait prendre une décision autoritaire (qui fasse abstraction de la loi ?) qui aille dans votre sens. C'est vraiment ça la réponse ? Ça me semble tellement hallucinant que je me demande si je comprends bien la phrase.

On ne devient pas milliardaire en dépensant de l'argent mais en demandant à ses petits copains de faire passer des lois, donner des contrats, etc. Sam Altman n'échappe pas à la règle.

le 10/10/2023 à 22:27
onilink_
Membre émérite

Je ne vois pas pourquoi il faudrait créer une exception.

Si j’apprends par cœur un livre Harry Potter et que je le re écris sur internet, j’enfreins le droit d'auteur.
Pourquoi cela devrait être différent venant d'une IA?

Si empêcher l'utilisation de texte soumis au droit d'auteur diminuerait la qualité des modèles ça montre d'autant plus l'importance:
- de continuer de protéger ces textes, je ne vois pas pourquoi on ferait des exceptions pour ces modèles que seules des multinationales peuvent se payer et entraîner et qui en plus ne sont pas ouverts. Cela montre d'autant plus la valeur de ces textes puisqu'ils ne peuvent pas s'en passer
- qu'il faudrait changer de paradigme et arrêter de faire des modèles qui ingurgitent et apprennent par cœur les données d’entraînement

C'est un aveux que ces modèles sont des machines à pomper les données malgré ce qu'ils essayent de nous vendre.
Avec les fameuses analogies de la façon dont l'humain apprends... alors que cela n'a rien, mais alors rien à voir.

Forcer les modèles d'arrêter à régurgiter les données d’entraînement serait sûrement le moyen légal le plus efficace pour régler pas mal de problèmes éthiques causés par l'IA, comme:
- le plagia des modèles génératifs, que ce soit du style ou carrément des images de certaines artistes, ou comme ici de livres ou autres textes protégés
- l'apprentissage par cœur de données privées, car contrairement a ce que l'on nous vend les données d’entraînement ne sont pas obtenues que par des sources publiques. Cela crée des problèmes de sécurité assez gros comme on peut l'imaginer
- le fait qu'on ne sait pas si une sortie peut être utilisée légalement (ex: la licence d'un code source généré qui aurait pompé des bouts soumis à la GNU GPL )

Science4All a fait pas mal de vidéos très intéressantes sur le sujet, qui est évidemment bien plus complexe que ce qu'il laisse paraitre au premier abord.

Bonus: https://thenib.com/im-a-luddite/

le 23/08/2023 à 13:55

Poster une réponse