Début août, le New York Times a mis à jour ses conditions d'utilisation pour interdire le scrapping de ses articles et images pour la formation à l'IA. Cette décision intervient à un moment où les entreprises technologiques ont continué à monétiser les applications de langage d'IA telles que ChatGPT et Google Bard, qui ont acquis leurs capacités grâce à des collectes massives non autorisées de données Internet.
Le NYT interdit l’utilisation de son contenu, qui comprend les articles, les vidéos, les images, le design, les métadonnées ou les compilations, pour le développement de tout logiciel, notamment pour l’entraînement d’un système d’apprentissage automatique ou d’IA. Il interdit également l’utilisation d’outils automatisés, comme les robots d’indexation, qui visent à utiliser, accéder ou collecter ce contenu sans son consentement écrit. Le NYT précise que le non-respect de ces restrictions peut entraîner des amendes ou des sanctions civiles, pénales ou administratives.
Dans la section 2.1 de ses conditions d'utilisation, il est écrit :
Envoyé par New York Times
Envoyé par New York Times
Cette mesure préventive du NYT pourrait être une réponse à une récente modification de la politique de confidentialité de Google, qui révèle que le géant de la recherche peut collecter des données publiques sur le web pour entraîner ses différents services d’IA, comme Bard ou Cloud AI.
Dans la mise à jour de sa politique de confidentialité, il est écrit :
Envoyé par Google
Il s'agit d'une clause inhabituelle pour une politique de confidentialité. En règle générale, ces politiques décrivent la manière dont une entreprise utilise les informations que vous publiez sur les propres services de l'entreprise. Ici, il semble que Google se réserve le droit de récolter et d'exploiter les données publiées sur n'importe quelle partie du Web public, comme si l'ensemble d'Internet était le propre terrain de jeu de l'IA de l'entreprise.
Une mesure potentiellement efficace ?
Aussi menaçant que cela puisse paraître, les conditions d'utilisation restrictives n'ont pas encore arrêté le scrapping des données sur Internet dans le but de les utiliser comme données d'apprentissage automatique. Tous les grands modèles de langage disponibles aujourd'hui, y compris GPT-4 d'OpenAI, Claude 2 d'Anthropic, Llama 2 de Meta et PaLM 2 de Google, ont été formés sur de grands ensembles de données de matériaux extraits d'Internet. À l'aide d'un processus appelé apprentissage non supervisé, les données Web ont été introduites dans des réseaux de neurones, permettant aux modèles d'IA d'acquérir un sens conceptuel du langage en analysant les relations entre les mots.
Des services d’IA populaires, comme ChatGPT d’OpenAI, sont donc entraînés sur d’énormes ensembles de données qui pourraient contenir des matériaux protégés par le droit d’auteur ou d’autres droits, extraits du web sans l’autorisation du créateur original. Cela a conduit à plusieurs procès contre OpenAI en raison de cette pratique.
Par exemple, deux auteurs américains ont poursuivi OpenAI devant le tribunal fédéral de San Francisco, affirmant dans un recours collectif proposé que la société avait abusé de leurs travaux pour « former » son populaire système d'intelligence artificielle générative ChatGPT.
Nous pouvons également citer la comédienne et auteure américaine Sarah Silverman qui a déposé une plainte contre Meta et OpenAI, les accusant d’avoir utilisé son œuvre sans son autorisation pour entraîner leurs modèles d’intelligence artificielle à générer du texte. Elle est rejointe par deux autres auteurs, Christopher Golden et Richard Kadrey, qui affirment que leurs livres ont également été exploités par les deux entreprises sans leur consentement.
Les plaignants citent comme preuve le fait que les modèles d’IA sont capables de résumer leurs livres lorsqu’ils sont sollicités. Par exemple, ChatGPT peut fournir un résumé du livre The Bedwetter de Sarah Silverman, publié en 2010, qui raconte son enfance marquée par l’énurésie. De même, LLaMA peut résumer les livres Ararat de Christopher Golden et Sandman Slim de Richard Kadrey, qui sont des romans fantastiques.
Conclusion
Le NYT n’est pas le seul média à s’inquiéter de l’utilisation de son contenu par l’IA. La semaine dernière, l’Associated Press et plusieurs autres organisations de presse ont publié une lettre ouverte affirmant qu’un « cadre juridique doit être élaboré pour protéger le contenu qui alimente les applications d’IA », entre autres préoccupations. OpenAI semble anticiper les défis juridiques à venir et a commencé à prendre des mesures qui pourraient viser à devancer certaines de ces critiques. Par exemple, OpenAI a récemment détaillé une méthode que les sites web peuvent utiliser pour bloquer son robot d’indexation GPTBot afin qu’il ne collecte pas les données de leurs sites web.
L’industrie de l’IA repose fortement sur les données pour améliorer ses modèles et ses services, mais cela entre en conflit avec les préoccupations des médias concernant la propriété et la protection de leurs données. Des considérations éthiques et juridiques se posent à mesure que l’IA et les médias collaborent dans la curation des actualités. Le NYT semble vouloir garder le contrôle sur son contenu et négocier au cas par cas avec les entreprises technologiques qui souhaitent l’utiliser pour entraîner leurs systèmes d’IA.
Source : NYT
Et vous ?
Quelle est votre opinion sur la décision du New York Times d’interdire aux fournisseurs d’IA de collecter son contenu ?
Pensez-vous que les entreprises technologiques devraient demander l’autorisation aux créateurs de contenu avant d’utiliser leurs données pour entraîner leurs modèles d’IA ?
Comment les médias en particulier, et d'autres entités en général, peuvent-ils protéger leur propriété intellectuelle tout en bénéficiant des innovations de l’IA ?