Cloudflare lance une place de marché pour permettre aux développeurs de facturer les robots d'IA pour le scraping de leurs sites web

Et propose des outils pour bloquer les bots d'IA en un seul clic

Le 24 septembre 2024 à 02:02, par Stéphane le calme

143PARTAGES

Cloudflare a annoncé lundi de nouveaux outils qui, selon elle, aideront à mettre fin à l'ère du scraping IA sans fin en donnant à tous les sites de son réseau le pouvoir de bloquer les bots en un seul clic. L'un des objectifs est de mettre un terme à l'avalanche de collecte de données d'IA sans restriction. En outre, Cloudflare affirme qu'il sera également plus facile d'identifier le contenu que les bots analysent le plus, de sorte que les sites puissent éventuellement bloquer l'accès et faire payer les bots pour qu'ils collectent leur contenu le plus précieux. Pour ouvrir la voie à cet avenir, Cloudflare crée également une place de marché permettant à tous les sites de négocier des accords de contenu sur la base d'audits d'IA plus granulaires de leurs sites.

Les propriétaires de sites n'ont pas la possibilité de déterminer comment les services d'IA utilisent leur contenu à des fins de formation ou autres. Lundi, Cloudflare a lancé un ensemble d'outils pour permettre aux propriétaires de sites, aux créateurs et aux éditeurs de reprendre facilement le contrôle de la manière dont leur contenu est mis à la disposition des robots et des robots d'indexation liés à l'IA. Tous les clients de Cloudflare peuvent désormais auditer et contrôler la manière dont les modèles d'IA accèdent au contenu de leur site.

Ce lancement commence par une vue analytique détaillée des services d'IA qui parcourent votre site et du contenu spécifique auquel ils accèdent. Les clients peuvent examiner l'activité par fournisseur d'IA, par type de bot, et quelles sections de leur site sont les plus populaires. Ces données sont disponibles pour chaque site sur Cloudflare et ne nécessitent aucune configuration.

Cloudflare dit s'attendre à ce que ce nouveau niveau de visibilité incite les équipes à prendre une décision concernant leur exposition aux robots d'indexation. Pour leur donner le temps de prendre cette décision, Cloudflare propose désormais une option en un clic dans son tableau de bord pour bloquer immédiatement l'accès de tout crawler d'IA à n'importe quel site. Les équipes peuvent ensuite utiliser cette « pause » pour décider si elles veulent autoriser des fournisseurs d'IA ou des types de robots spécifiques à continuer. Une fois cette décision prise, les administrateurs peuvent utiliser de nouveaux filtres dans le tableau de bord de Cloudflare pour appliquer ces politiques en quelques clics seulement.

Certains des clients de Cloudflare ont déjà décidé de négocier des contrats directement avec les entreprises d'IA. Bon nombre de ces contrats comprennent des clauses relatives à la fréquence d'analyse et au type de contenu auquel il est possible d'accéder :

« Nous voulons que ces éditeurs disposent des outils nécessaires pour mesurer la mise en œuvre de ces accords. Dans le cadre de l'annonce d'aujourd'hui, les clients de Cloudflare peuvent désormais générer un rapport en un seul clic qui peut être utilisé pour vérifier l'activité autorisée dans ces accords.

« Nous pensons également que les sites de toute taille devraient être en mesure de déterminer comment ils souhaitent être rémunérés pour l'utilisation de leur contenu par des modèles d'IA. L'annonce d'aujourd'hui présente en avant-première une nouvelle fonctionnalité de monétisation de Cloudflare qui donnera aux propriétaires de sites les outils pour fixer les prix, contrôler l'accès et capturer de la valeur pour la numérisation de leur contenu ».

Le contexte et les enjeux

Le scraping, ou l’extraction de données, est une pratique courante utilisée par les modèles d’IA pour collecter des informations à partir de diverses sources en ligne. Cependant, cette pratique pose des défis importants pour les créateurs de contenu. En effet, de nombreux sites web voient leur contenu utilisé sans compensation, ce qui peut nuire à leur modèle économique et réduire leur trafic.

Et Cloudflare d'expliquer :

« Jusqu'à récemment, les bots et les scrapers sur l'internet se répartissaient principalement en deux catégories : les bons et les mauvais. Les bons robots, comme les robots des moteurs de recherche, aidaient le public à découvrir votre site et à vous attirer du trafic. Les mauvais robots essayaient de faire tomber votre site, de passer avant vos clients dans la file d'attente ou de récupérer les données de vos concurrents. Nous avons conçu la plateforme Cloudflare Bot Management pour vous permettre de faire la distinction entre ces deux grandes catégories et de les autoriser ou de les bloquer.

« La montée en puissance des grands modèles de langage (LLM) et d'autres outils génératifs a créé une troisième catégorie plus obscure. Contrairement aux robots malveillants, les robots associés à ces plateformes n'essaient pas activement de mettre votre site hors ligne ou de gêner vos clients. Ils n'essaient pas de voler des données sensibles ; ils veulent simplement analyser ce qui est déjà public sur votre site.

« Toutefois, contrairement aux robots utiles, ces robots liés à l'IA ne génèrent pas nécessairement du trafic vers votre site. Les robots de scraping de données d'IA analysent le contenu de votre site pour former de nouveaux LLM. Votre contenu est ensuite passé dans une sorte de mixeur, mélangé à d'autres contenus et utilisé pour répondre aux questions des utilisateurs, sans attribution ni nécessité pour les utilisateurs de visiter votre site. Un autre type de robots, les AI Search Crawler bots, analysent votre contenu et tentent de le citer lorsqu'ils répondent à la recherche d'un utilisateur. L'inconvénient est que ces utilisateurs risquent de rester dans cette interface, plutôt que de visiter votre site, parce qu'une réponse est assemblée sur la page devant eux.

« Ce flou laisse les propriétaires de sites devant une décision difficile à prendre. L'échange de valeur n'est pas clair. Et les propriétaires de sites sont désavantagés alors qu'ils doivent rattraper leur retard. De nombreux sites ont permis à ces robots d'indexation de l'IA de scanner leur contenu parce que ces robots, pour la plupart, semblaient être de "bons" robots - mais le résultat est que leur site est moins fréquenté car leur contenu est reconditionné dans des réponses rédigées par l'IA.

« Nous pensons que cela représente un risque pour un Internet ouvert. Sans la possibilité de contrôler le balayage et de réaliser la valeur, les propriétaires de sites seront découragés de lancer ou de maintenir des propriétés Internet. Les créateurs dissimuleront une plus grande partie de leur contenu derrière des murs payants et les plus grands éditeurs concluront des accords directs. Les fournisseurs de modèles d'IA auront à leur tour du mal à trouver et à accéder à la longue traîne de contenus de haute qualité sur les sites plus petits ».

La place de marché est la dernière étape du plan plus vaste du PDG de Cloudflare, Matthew Prince, qui vise à donner aux éditeurs un meilleur contrôle sur la manière dont les robots d'IA collectent les données sur leurs sites web et sur le moment où ils le font.

Une situation qui ne va pas en s'améliorant

De plus en plus, les créateurs qui luttent pour contrôler ce qui se passe avec leur contenu ont été poussés à poursuivre les entreprises d'IA pour bloquer le scraping indésirable, comme l'a fait le New York Times, ou à placer le contenu derrière des murs payants, réduisant ainsi l'accès du public à l'information.

Cloudflare tente de résoudre un problème qui menace l'industrie de l'IA : comment les petits éditeurs pourront-ils survivre à l'ère de l'IA si les internautes se rendent sur ChatGPT plutôt que sur leur site web ? Aujourd'hui, les fournisseurs de modèles d'IA explorent des milliers de petits sites web à la recherche d'informations qui alimentent leurs modèles d'apprentissage. Si certains grands éditeurs ont conclu des accords avec OpenAI pour obtenir des licences sur le contenu, la plupart des sites web ne reçoivent rien, mais leur contenu continue d'alimenter quotidiennement les modèles d'IA les plus populaires. Cela pourrait briser les modèles commerciaux de nombreux sites web, en réduisant le trafic dont ils ont désespérément besoin.

Au début de l'été, la startup Perplexity, spécialisée dans la recherche alimentée par l'IA, a été accusée de récupérer des données de sites web qui avaient délibérément indiqué qu'ils ne voulaient pas être explorés à l'aide du protocole d'exclusion des robots (Robots Exclusion Protocol). Peu de temps après, Cloudflare a mis en place un bouton permettant aux clients de bloquer tous les robots d'IA en un seul clic.

« C'est le résultat d'une frustration que nous avons entendue, lorsque les gens avaient l'impression que leur contenu était volé », a déclaré Matthew Prince.

Certains propriétaires de sites web ont confié aux médias que des robots d'intelligence artificielle faisaient tellement de collecte de données sur leurs sites web qu'ils avaient l'impression qu'une attaque DDoS paralysait leurs serveurs. Le fait que votre site web soit parcouru par ses robots peut non seulement être dérangeant, mais aussi faire grimper votre facture de cloud et avoir un impact sur votre service.

Comment bloquer les robots en un clic

Désormais, les opérateurs de sites Cloudflare peuvent cesser de bloquer manuellement chaque robot d'intelligence artificielle un par un et choisir à la place de « bloquer tous les robots d'intelligence artificielle en un seul clic », a déclaré Cloudflare.

Ils peuvent le faire en visitant la section Bots sous l'onglet Security du tableau de bord de Cloudflare, puis en cliquant sur un lien bleu dans le coin supérieur droit « pour configurer la façon dont le proxy de Cloudflare gère le trafic des bots », a déclaré Cloudflare. Sur cet écran, les opérateurs peuvent facilement « basculer le bouton de la carte “Block AI Scrapers and Crawlers” sur la position “On” », bloquant tout et donnant aux créateurs de contenu le temps de réfléchir à l'accès qu'ils souhaitent réactiver, le cas échéant.

Au-delà du simple blocage des robots, les opérateurs peuvent également procéder à des audits de l'IA, en analysant rapidement les sections de leurs sites les plus scannées par les robots. À partir de là, les opérateurs peuvent décider quel scraping est autorisé et utiliser des contrôles sophistiqués pour décider quels bots peuvent scanner quelles parties de leurs sites.

« Pour certaines équipes, la décision sera d'autoriser les robots associés aux moteurs de recherche d'IA à scanner leurs propriétés Internet parce que ces outils peuvent encore générer du trafic vers le site », explique le blog de Cloudflare. « D'autres organisations peuvent signer des accords avec un fournisseur de modèle...

La fin de cet article est réservée aux abonnés. Soutenez le Club Developpez.com en prenant un abonnement pour que nous puissions continuer à vous proposer des publications.

Une erreur dans cette actualité ? Signalez-nous-la !

Votre nom : Votre e-mail :

Décrivez l'erreur que vous souhaitez porter à notre connaissance :

Identifiez-vous

Créer un compte

Cloudflare lance une place de marché pour permettre aux développeurs de facturer les robots d'IA pour le scraping de leurs sites web

Et propose des outils pour bloquer les bots d'IA en un seul clic

Identifiant
Mot de passe

Mot de passe oublié ?

Identifiez-vous

Créer un compte

Cloudflare lance une place de marché pour permettre aux développeurs de facturer les robots d'IA pour le scraping de leurs sites web Et propose des outils pour bloquer les bots d'IA en un seul clic

Cloudflare lance une place de marché pour permettre aux développeurs de facturer les robots d'IA pour le scraping de leurs sites web

Et propose des outils pour bloquer les bots d'IA en un seul clic