Le New York Times (NYT), l’un des plus grands journaux américains, a récemment mis à jour ses conditions d’utilisation pour empêcher que son contenu soit utilisé pour entraîner des modèles d’intelligence artificielle (IA) sans son autorisation écrite. Cette décision intervient alors que de nombreuses entreprises technologiques exploitent des applications d’IA basées sur le langage, telles que ChatGPT et Google Bard, qui ont acquis leurs capacités grâce à des collectes massives et non autorisées de données sur Internet.Début août, le New York Times a mis à jour ses conditions d'utilisation pour interdire le scrapping de ses articles et images pour la formation à l'IA. Cette décision intervient à un moment où les entreprises technologiques ont continué à monétiser les applications de langage d'IA telles que ChatGPT et Google Bard, qui ont acquis leurs capacités grâce à des collectes massives non autorisées de données Internet.
Le NYT interdit l’utilisation de son contenu, qui comprend les articles, les vidéos, les images, le design, les métadonnées ou les compilations, pour le développement de tout logiciel, notamment pour l’entraînement d’un système d’apprentissage automatique ou d’IA. Il interdit également l’utilisation d’outils automatisés, comme les robots d’indexation, qui visent à utiliser, accéder ou collecter ce contenu sans son consentement écrit. Le NYT précise que le non-respect de ces restrictions peut entraîner des amendes ou des sanctions civiles, pénales ou administratives.
Dans la section 2.1 de ses conditions d'utilisation, il est écrit :

Envoyé par
New York Times
Le contenu des Services, y compris le Site, est destiné à votre usage personnel et non commercial. Tous les documents publiés ou disponibles sur les Services (y compris, mais sans s'y limiter, les textes, photographies, images, illustrations, conceptions, clips audio, clips vidéo, "look and feel", métadonnées, données ou compilations, tous également connus sous le nom de " Contenu"

sont protégés par le droit d'auteur et détenus ou contrôlés par The New York Times Company ou la partie créditée comme fournisseur du Contenu. La New York Times Company détient également le droit d'auteur sur la sélection, la coordination, la compilation et l'amélioration de ce Contenu (« Arrangement »). Vous devez respecter tous les avis, informations ou restrictions de droits d'auteur supplémentaires contenus dans tout Contenu accessible via le Service. L'utilisation non commerciale n'inclut pas l'utilisation du Contenu sans le consentement écrit préalable de The New York Times Company en relation avec : (1) le développement de tout programme logiciel, y compris, mais sans s'y limiter, la formation d'un machine learning ou d'un système d'intelligence artificielle ( IA) ; ou (2) fournir des ensembles de données archivés ou mis en cache contenant du Contenu à une autre personne ou entité.
Plus bas, dans la section 4.1, les conditions stipulent que sans le consentement écrit préalable du NYT, personne ne peut « utiliser le contenu pour le développement de tout programme logiciel, y compris, mais sans s'y limiter, la formation d'un système d'apprentissage automatique ou d'intelligence artificielle (IA) » :

Envoyé par
New York Times
4. UTILISATION INTERDITE DES SERVICES
4.1 Vous ne pouvez pas accéder ou utiliser, ou tenter d'accéder ou d'utiliser, les Services pour prendre des mesures qui pourraient nous nuire ou nuire à un tiers. Vous ne pouvez pas utiliser les Services en violation des lois applicables, y compris les contrôles et les sanctions à l'exportation, ou en violation de notre propriété intellectuelle ou de celle d'un tiers ou d'autres droits de propriété ou légaux. Vous acceptez en outre de ne pas tenter (ni d'encourager ou de soutenir la tentative de quiconque) de contourner, d'effectuer une ingénierie inverse, de décrypter ou de modifier ou d'interférer avec les Services, ou tout contenu des Services, ou de faire une utilisation non autorisée des Services. Sans le consentement écrit préalable de NYT, vous ne devez pas :
(1) accéder à toute partie des Services, du Contenu, des données ou des informations auxquelles vous n'avez pas la permission ou l'autorisation d'accéder ou pour lesquelles NYT a révoqué votre accès ;
(2) utiliser des robots, des scripts, des services, des logiciels ou tout dispositif, outil ou processus manuel ou automatique conçu pour extraire des données ou récupérer le contenu, les données ou les informations des services, ou utiliser, accéder ou collecter le contenu des données ou informations des Services utilisant des moyens automatisés ;
(3) utiliser le Contenu pour le développement de tout programme logiciel, y compris, mais sans s'y limiter, la formation d'un système d'apprentissage automatique ou d'intelligence artificielle (IA).
(4) utiliser des services, des logiciels ou tout dispositif, outil ou processus manuel ou automatique conçu pour contourner toute restriction, condition ou mesure technologique qui contrôle l'accès aux Services de quelque manière que ce soit, y compris le remplacement de toute fonction de sécurité ou le contournement ou le contournement de tout accès contrôler ou utiliser les limites des Services ;
(5) mettre en cache ou archiver le Contenu (à l'exception de l'utilisation par un moteur de recherche public pour créer des index de recherche) ;
(6) prendre des mesures qui imposent une charge déraisonnable ou disproportionnée sur notre réseau ou notre infrastructure ; et
(7) faire tout ce qui pourrait désactiver, endommager ou modifier le fonctionnement ou l'apparence des Services, y compris la présentation de publicités.
4.2 S'engager dans une utilisation interdite des Services peut entraîner des sanctions civiles, pénales et/ou administratives, des amendes ou des sanctions à l'encontre de l'utilisateur et de ceux qui l'assistent.
Google va utiliser tout ce que vous allez publier en ligne comme données d'entraînement de son IA Cette mesure préventive du NYT pourrait être une réponse à une récente modification de la politique de confidentialité de Google, qui révèle que le géant de la recherche peut collecter des données publiques sur le web pour entraîner ses différents services d’IA, comme Bard ou Cloud AI.
Dans la mise à jour de sa politique de confidentialité,
il est écrit :

Envoyé par
Google
Recherche et développement : Google utilise les informations pour améliorer ses services et développer de nouveaux produits, ainsi que de nouvelles fonctionnalités et technologies utiles à ses utilisateurs et au public. Par exemple, Google utilise des informations disponibles publiquement pour contribuer à l'entraînement de ses modèles d'IA, et concevoir des produits et des fonctionnalités comme Google Traduction, Bard et les capacités d'IA de Cloud
Le message est disponible à la section
Conformité et coopération avec des organismes de réglementation dans la partie
Finalités commerciales pour lesquelles des informations peuvent être utilisées ou divulguées.
Il s'agit d'une clause inhabituelle pour une politique de confidentialité. En règle générale, ces politiques décrivent la manière dont une entreprise utilise les informations que vous publiez sur les propres services de l'entreprise. Ici, il semble que Google se réserve le droit de récolter et d'exploiter les données publiées sur n'importe quelle partie du Web public, comme si l'ensemble d'Internet était le propre terrain de jeu de l'IA de l'entreprise.
Une mesure potentiellement efficace ?Aussi menaçant que cela puisse paraître, les conditions d'utilisation restrictives n'ont pas encore arrêté le scrapping des données sur Internet dans le but de les utiliser comme données d'apprentissage automatique. Tous les grands modèles de langage disponibles aujourd'hui, y compris GPT-4 d'OpenAI, Claude 2 d'Anthropic, Llama 2 de Meta et PaLM 2 de Google, ont été formés sur de grands ensembles de données de matériaux extraits d'Internet. À l'aide d'un processus appelé apprentissage non supervisé, les données Web ont été introduites dans des réseaux de neurones, permettant aux modèles d'IA d'acquérir un sens conceptuel du langage en analysant les relations...
La fin de cet article est réservée aux abonnés. Soutenez le Club Developpez.com en
prenant un abonnement pour que nous puissions continuer à vous proposer des publications.