
Cloudflare bloquera par défaut l'accès des robots d'indexation d'intelligence artificielle (IA) aux pages web, tout en offrant aux propriétaires de sites des options plus granulaires pour contrôler le type de robots d'IA qui indexent leurs pages. De plus, Cloudflare a lancé une nouvelle initiative visant à faire payer les services d'IA pour accéder à ces pages, appelée "Pay Per Crawl".
L'initiative voit le jour peu de temps après que le PDG de Cloudflare a qualifié l'IA de fardeau économique. S'exprimant lors d'une récente conférence abordant l'impact fondamental de l'IA sur les modèles d'entreprise en ligne, Matthew Prince a avertit que l'IA brise le modèle économique du web en découplant la création de contenu de la valeur et en fournissant des réponses sans générer de trafic vers les sources originales. Il a notamment décrit Google, le géant de la recherche en ligne, comme étant au cœur de la perturbation.
Pour rappel, Cloudflare est utilisé par environ 20 % de l'ensemble de l'Internet, ce qui peut poser un sérieux problème pour les services d'IA qui s'entraînent sur la base du web ouvert car 20 % de tout ce contenu peut tout simplement disparaître pour ces services d'IA. Cloudflare est un réseau de diffusion de contenu important, mais il offre également des services de cybersécurité, d'atténuation des attaques DDoS, de réseau étendu, de proxys inversés et bien plus encore.
Blocage des robots d'IA. L'annonce par Cloudflare de son intention de bloquer par défaut les robots d'IA et les crawlers est une décision importante. Tout nouveau site qui s'inscrit à Cloudflare sera automatiquement configuré par défaut pour empêcher les robots d'IA d'accéder à son contenu. « Cela va fondamentalement changer la façon dont les entreprises d'IA accèdent au contenu web à l'avenir », a écrit Cloudflare.
Contrôles de blocage granulaires. Cloudflare a déclaré avoir conclu un partenariat avec des entreprises spécialisées dans l'IA afin de vérifier l'identité et l'objectif des robots d'indexation d'IA. Plus précisément, il s'agit de déterminer si les robots d'IA effectuent une indexation à des fins de formation, de génération de contenu ou de recherche.
Cela permet aux propriétaires de sites et aux créateurs de contenu de définir un contrôle plus granulaire sur les robots qu'ils souhaitent autoriser et ceux qu'ils souhaitent interdire.
Pay Per Crawl. Cloudflare a également annoncé une nouvelle initiative de rémunération visant à mettre au point une méthode permettant aux entreprises d'IA de payer pour explorer votre contenu, appelée Pay Per Crawl. À l'avenir, les entreprises d'IA pourraient également être en mesure de prévisualiser le contenu, de voir quand il a été mis à jour afin de rassembler le contenu le plus pertinent pour leurs besoins particuliers, et même d'y accéder dans un format optimisé pour les machines, a déclaré l'entreprise.
Cette initiative, actuellement en version bêta privée, offrira aux créateurs de contenu et aux propriétaires de sites une nouvelle source de revenus, et aux entreprises spécialisées dans l'IA un moyen simple et efficace de trouver et d'accéder au contenu dont elles ont besoin.
Les tarifs seront déterminés à la fois par les éditeurs, qui peuvent fixer les prix, et par les entreprises d'IA, qui peuvent choisir d'accéder ou non aux pages web à ces tarifs, a déclaré la société.
ADWEEK, Atlas Obscura, BuzzFeed, Fortune, Stack Overflow, News/Media Alliance, The Atlantic, Battelle Media, Evolve Media, Hyperscience, IAB Tech Lab, O'Reilly Media, Quora, Raptive, Sovrn, Inc, figurent parmi quelques-uns des éditeurs qui ont déjà adopté cette initiative.
« L'IA va fondamentalement changer le modèle économique du web. Depuis 15 ans, le modèle économique du web repose sur la recherche... La recherche est le moteur de tout ce qui se passe en ligne. », a déclaré Matthew Prince, cofondateur et PDG de Cloudflare.
« Si Internet veut survivre à l'ère de l'IA, nous devons donner aux éditeurs le contrôle qu'ils méritent et construire un nouveau modèle économique qui fonctionne pour tout le monde : les créateurs, les consommateurs, les fondateurs de l'IA de demain et l'avenir du Web lui-même », a rajouté Matthew Prince. « Le contenu original est ce qui fait d'Internet l'une des plus grandes inventions du siècle dernier, et nous devons nous unir pour le protéger. Les robots d'indexation IA ont récupéré du contenu sans aucune limite. Notre objectif est de redonner le pouvoir aux créateurs, tout en continuant à aider les entreprises d'IA à innover. Il s'agit de préserver l'avenir d'un Internet libre et dynamique grâce à un nouveau modèle qui fonctionne pour tout le monde. »
« En tant que plus grand éditeur du pays, regroupant USA TODAY et plus de 200 publications locales à travers le réseau USA TODAY Network, il est essentiel de bloquer le scraping non autorisé et l'utilisation de notre contenu original sans compensation équitable », a déclaré Renn Turiano, directeur de la consommation et des produits chez Gannett Media. « Alors que notre secteur est confronté à ces défis, nous sommes optimistes quant au fait que la technologie Cloudflare contribuera à lutter contre le vol de propriété intellectuelle précieuse. »
« Nous félicitons Cloudflare pour son engagement en faveur d'un écosystème numérique durable qui profite à toutes les parties prenantes : les consommateurs qui s'appuient sur des informations fiables, les éditeurs qui investissent dans leur création et les annonceurs qui soutiennent leur diffusion », a déclaré Vivek Shah, PDG de Ziff Davis.
Il n'a pas été facile d'empêcher les robots d'indexation d'IA d'utiliser le contenu des créateurs sans autorisation. De nombreux services ne respectent pas pleinement les règles du fichier robots.txt, d'autres ont créé d'autres méthodes pour contrôler l'indexation que les systèmes de gestion de contenu n'ont pas entièrement adoptées, et certains (comme Google) regroupent des fonctionnalités telles que les aperçus d'IA et le mode IA dans le cadre de la recherche.
L'initiative de Cloudflare devrait non seulement permettre aux éditeurs et aux propriétaires de sites de mieux contrôler les robots d'indexation d'IA, mais aussi inciter ces entreprises d'IA à trouver de meilleurs moyens de rémunérer les créateurs de contenu pour l'utilisation future de leur contenu.
Un paysage de consommation en pleine mutation
De nombreux éditeurs, créateurs de contenu et propriétaires de sites web ont actuellement l'impression d'avoir un choix binaire : soit laisser la porte grande ouverte à l'IA pour qu'elle consomme tout ce qu'ils créent, soit créer leur propre jardin clos. Mais s'il existait une autre solution ?
Cloudflare est parti d'un principe simple : il voulait que les créateurs de contenu propriétaires de sites web puissent contrôler qui accède à leur travail. Si un créateur souhaite bloquer tous les robots d'indexation d'IA de son contenu, il doit pouvoir le faire. Si un créateur ou un propriétaire de site souhaite autoriser certains ou tous les robots d'indexation d'IA à accéder gratuitement à l'intégralité de son contenu, il doit également pouvoir le faire. Selon Cloudflare, les créateurs doivent être aux commandes.
Après des centaines de conversations avec des organes de presse, des éditeurs et des plateformes de réseaux sociaux à grande échelle, Cloudflare a constaté un désir constant pour une troisième voie : ils aimeraient permettre aux robots d'indexation d'IA d'accéder à leur contenu, mais ils aimeraient être rémunérés en échange. Actuellement, cela nécessite de connaître la bonne personne et de conclure un accord ponctuel, ce qui représente un défi insurmontable si l'on ne dispose pas de l'échelle et de l'influence nécessaires.
Et si l'on pouvait facturer un robot d'indexation ?
Cloudflare estime que le choix ne doit pas nécessairement être binaire : « il devrait exister une troisième option, plus nuancée, à savoir facturer l'accès ». Au lieu d'un blocage général ou d'un accès libre non rémunéré, Cloudflare souhaite donc donner aux propriétaires de contenu les moyens de monétiser leur contenu à l'échelle d'Internet.
« Nous sommes ravis de contribuer à dépoussiérer un élément du Web largement oublié : le code de réponse HTTP 402 », a déclaré Cloudflare.
Présentation de Pay per Crawl
Pay per Crawl, actuellement en version bêta privée, est la première expérience de Cloudflare dans ce domaine. Pay per Crawl s'intègre à l'infrastructure web existante, en tirant parti des codes d'état HTTP et des mécanismes d'authentification établis pour créer un cadre permettant l'accès à des contenus payants.
Selon Cloudflare, chaque fois qu'un robot d'indexation d'IA demande du contenu, il présente soit son intention de paiement via des en-têtes de requête pour un accès réussi (code de réponse HTTP 200), soit il reçoit une réponse 402 Payment Required avec le prix. Cloudflare agit alors en tant que commerçant attitré pour le Pay per Crawl et fournit également l'infrastructure technique sous-jacente.
Contrôles et tarification par les éditeurs
Pay per Crawl offre aux propriétaires de domaines un contrôle total sur leur stratégie de monétisation. Ils peuvent définir un prix forfaitaire par requête pour l'ensemble de leur site. Les éditeurs disposent alors de trois options distinctes pour les robots d'indexation :
- Autoriser : accorder au robot d'indexation un accès gratuit au contenu.
- Facturer : exiger un paiement au prix configuré pour l'ensemble du domaine.
- Bloquer : refuser tout accès, sans option de paiement.
Un mécanisme important ici est que même si un robot d'indexation n'a pas de relation commerciale avec Cloudflare, et ne peut donc pas être facturé pour l'accès, un éditeur peut toujours choisir de lui « facturer » l'accès. Cela équivaut fonctionnellement à un blocage au niveau du réseau (une réponse HTTP 403 Forbidden où aucun contenu n'est renvoyé), mais avec l'avantage supplémentaire d'indiquer au robot d'indexation qu'une relation pourrait être établie à l'avenir.
Bien que les éditeurs puissent actuellement définir un prix forfaitaire pour l'ensemble de leur site, ils conservent la possibilité de contourner les frais pour certains crawlers spécifiques si nécessaire. Cela est particulièrement utile si un créateur ou un propriétaire de site souhaite autoriser gratuitement l'accès à un certain crawler ou si il souhaite négocier et conclure un partenariat de contenu en dehors de la fonctionnalité Pay per Crawl.
Pour garantir l'intégration avec la politique de sécurité existante de chaque éditeur, Cloudflare applique les décisions « Autoriser » ou « Facturer » via un moteur de règles qui ne fonctionne qu'après l'application des politiques WAF existantes et des fonctionnalités de gestion ou de blocage des bots.
En-têtes de paiement et accès
Lorsque Cloudflare a développé le système, l'entreprise savait qu'elle devait relever un défi technique extrêmement important : garantir la facturation d'un robot d'indexation spécifique, tout en empêchant quiconque d'usurper l'identité de ce robot. Heureusement, il existe un moyen d'y parvenir grâce aux propositions Web Bot Auth.
Pour les robots d'indexation, cela implique de :
- Générer une paire de clés Ed25519 et de rendre la clé publique au format JWK disponible dans un répertoire hébergé
- S'inscrire auprès de Cloudflare pour fournir l'URL de votre répertoire de clés et les informations relatives à l'agent utilisateur.
- Configurer votre robot d'indexation pour qu'il utilise les signatures de messages HTTP avec chaque requête.
Une fois l'enregistrement accepté, les requêtes du robot d'indexation doivent toujours inclure les en-têtes signature-agent, signature-input et signature afin d'identifier votre robot d'indexation et de découvrir les ressources payantes.
Accès au contenu payant
Une fois le robot d'indexation configuré, deux processus permettent de déterminer si le contenu est payant :
Réactif (priorité à la découverte) : Si un robot d'indexation demande une URL payante, Cloudflare renvoie une réponse HTTP 402 Payment Required, accompagnée d'un en-tête crawler-price. Cela indique que le paiement est requis pour la ressource demandée.
Le robot d'indexation peut alors décider de réessayer la requête, en incluant cette fois-ci un en-tête crawler-exact-price pour indiquer son accord à payer le prix configuré.
Proactif (priorité à l'intention) : Une autre solution consiste pour le robot d'indexation à inclure de manière préventive un en-tête crawler-max-price dans sa requête initiale.
Si le prix configuré pour une ressource est égal ou inférieur à cette limite spécifiée, la requête est traitée et le contenu est fourni avec une réponse HTTP 200 OK réussie, confirmant la facturation :
Si le montant indiqué dans une requête crawler-max-price est supérieur au prix configuré par le propriétaire du contenu, seul le prix configuré est facturé. Cependant, si le prix configuré de la ressource dépasse le prix maximum proposé par le robot d'indexation, une réponse HTTP 402 Payment Required est renvoyée, indiquant le coût spécifié. Un seul en-tête de déclaration de prix, crawler-exact-price ou crawler-max-price, peut être utilisé par requête.
Les en-têtes crawler-exact-price ou crawler-max-price déclarent explicitement la volonté du robot d'exploration de payer. Si tous les contrôles sont réussis, le contenu est servi et l'événement d'exploration est consigné. Si un aspect quelconque de la requête n'est pas valide, le périphérique renvoie une réponse HTTP 402 Payment Required.
Règlement financier
Selon Cloudflare, les opérateurs de robots d'indexation et les propriétaires de contenu doivent configurer les détails du paiement « Pay per Crawl » dans leur compte Cloudflare. Les événements de facturation sont enregistrés chaque fois qu'un robot d'indexation effectue une requête authentifiée avec intention de paiement et reçoit une réponse HTTP 200-level avec un en-tête crawler-charged. Cloudflare agrège ensuite tous les événements, facture le robot d'indexation et distribue les gains à l'éditeur.
Du contenu pour les robots d'indexation aujourd'hui, pour les agents demain
Fondamentalement, le « Pay per Crawl » marque le début d'un changement technique dans la manière dont le contenu est contrôlé en ligne. En fournissant aux créateurs un mécanisme programmatique robuste pour évaluer et contrôler leurs actifs numériques, Cloudflare leur donne les moyens de continuer à créer le contenu riche et diversifié qui rend Internet si précieux.
Cloudflare s'attend à ce que le « Pay per Crawl » évolue de manière significative. « Il est encore très tôt : nous pensons que de nombreux types d'interactions et de marchés peuvent et doivent se développer simultanément. Nous sommes ravis de soutenir ces différents efforts et ces normes ouvertes. »
Parmi ces interactions, Cloudflare évoque l'exemple où un éditeur ou une nouvelle organisation pourrait vouloir facturer des tarifs différents selon les chemins d'accès ou les types de contenu. Le fournisseur de service soulève ainsi plusieurs défis, notamment comment introduire une tarification dynamique basée non seulement sur la demande, mais aussi sur le nombre d'utilisateurs de votre application d'IA ? Comment introduire des licences granulaires à l'échelle d'Internet, que ce soit pour la formation, l'inférence, la recherche ou quelque chose d'entièrement nouveau ?
Cloudflare estime que le véritable potentiel du « Pay per Crawl » pourrait émerger dans un monde agentique. « Et si un paywall agentique pouvait fonctionner entièrement de manière programmatique ? Imaginez que vous demandiez à votre programme de recherche approfondie préféré de vous aider à synthétiser les dernières recherches sur le cancer ou un mémoire juridique, ou simplement de vous aider à trouver le meilleur restaurant de Soho, puis que vous donniez à cet agent un budget à dépenser pour acquérir le contenu le meilleur et le plus pertinent. En ancrant notre première solution sur le code de réponse HTTP 402, nous ouvrons la voie à un avenir où des agents intelligents pourront négocier de manière programmatique l'accès aux ressources numériques. », déclare Cloudflare.
Source : Cloudflare
Et vous ?


Voir aussi :


Vous avez lu gratuitement 131 articles depuis plus d'un an.
Soutenez le club developpez.com en souscrivant un abonnement pour que nous puissions continuer à vous proposer des publications.
Soutenez le club developpez.com en souscrivant un abonnement pour que nous puissions continuer à vous proposer des publications.