IdentifiantMot de passe
Loading...
Mot de passe oublié ?Je m'inscris ! (gratuit)

Vous êtes nouveau sur Developpez.com ? Créez votre compte ou connectez-vous afin de pouvoir participer !

Vous devez avoir un compte Developpez.com et être connecté pour pouvoir participer aux discussions.

Vous n'avez pas encore de compte Developpez.com ? Créez-en un en quelques instants, c'est entièrement gratuit !

Si vous disposez déjà d'un compte et qu'il est bien activé, connectez-vous à l'aide du formulaire ci-dessous.

Identifiez-vous
Identifiant
Mot de passe
Mot de passe oublié ?
Créer un compte

L'inscription est gratuite et ne vous prendra que quelques instants !

Je m'inscris !

Cloudflare exige que Google modifie la façon dont ses outils IA explorent le web : « Nous obtiendrons de Google un moyen de bloquer les IA Overviews sans bloquer l'indexation de la recherche classique »

Le , par Stéphane le calme

0PARTAGES

4  0 
Cloudflare exige que Google modifie la façon dont ses outils IA explorent le web :
« Nous obtiendrons de Google qu'il fournisse un moyen de bloquer les IA Overviews sans bloquer l'indexation de la recherche classique »

Cloudflare, un acteur majeur de l'infrastructure internet, est au cœur d'un débat houleux avec Google, exigeant que le géant de la recherche modifie la façon dont ses outils d'intelligence artificielle explorent le web. Cette initiative vise à donner aux propriétaires de sites un contrôle accru sur l'utilisation de leur contenu par les systèmes d'IA de Google, une demande à laquelle Google ne devrait probablement pas accéder facilement.

Après que Cloudflare a commencé à tester de nouvelles fonctionnalités qui permettraient aux sites web de bloquer les robots d'indexation ou d'exiger un paiement pour le crawling, l'entreprise technologique a immédiatement été confrontée à des questions sur la logistique du plan. En particulier, les propriétaires de sites web et les experts en référencement voulaient savoir comment Cloudflare prévoyait d'empêcher le robot de Google d'explorer les sites pour alimenter la fonctionnalité AI Overview de Google sans risquer d'empêcher ce même robot d'explorer les sites pour obtenir de précieux placements dans les moteurs de recherche.


Le problème : un déséquilibre croissant dans l’usage du contenu web

Le PDG de Cloudflare, Matthew Prince, l’exprime sans détour : les crawlers IA s’approprient massivement le contenu d’Internet sans le redistribuer équitablement en trafic, en valeur, ou en rémunération. Alors que Google promet depuis 20 ans du trafic en échange du référencement, l’équilibre est aujourd’hui rompu avec les usages IA. La fonction AI Overviews de Google, par exemple, propose désormais des réponses complètes extraites de sources web, sans même que l’utilisateur ne clique sur le site d’origine. Résultat : les éditeurs sont pillés pour former les IA… mais ne gagnent presque plus rien.

La motivation principale de Cloudflare est de permettre aux éditeurs et créateurs de contenu de décider si et comment leurs données sont utilisées pour entraîner les modèles d'IA. Pour y parvenir, Cloudflare a introduit des outils permettant aux propriétaires de sites de :
  • Bloquer par défaut les bots d'IA : les nouveaux sites utilisant Cloudflare bloqueraient automatiquement l'accès des crawlers d'IA.
  • Contrôles de blocage granulaires : Cloudflare a déclaré avoir conclu un partenariat avec des entreprises spécialisées dans l'IA afin de vérifier l'identité et l'objectif des robots d'indexation d'IA. Plus précisément, il s'agit de déterminer si les robots d'IA effectuent une indexation à des fins de formation, de génération de contenu ou de recherche. Cela permet aux propriétaires de sites et aux créateurs de contenu de définir un contrôle plus granulaire sur les robots qu'ils souhaitent autoriser et ceux qu'ils souhaitent interdire
  • Mettre en place un modèle Pay-per-crawl : Cloudflare a annoncé une nouvelle initiative de rémunération visant à mettre au point une méthode permettant aux entreprises d'IA de payer pour explorer votre contenu, appelée Pay-per-crawl. À l'avenir, les entreprises d'IA pourraient également être en mesure de prévisualiser le contenu, de voir quand il a été mis à jour afin de rassembler le contenu le plus pertinent pour leurs besoins particuliers, et même d'y accéder dans un format optimisé pour les machines, a déclaré l'entreprise.

    Cette initiative, actuellement en version bêta privée, offrira aux créateurs de contenu et aux propriétaires de sites une nouvelle source de revenus, et aux entreprises spécialisées dans l'IA un moyen simple et efficace de trouver et d'accéder au contenu dont elles ont besoin. Les tarifs seront déterminés à la fois par les éditeurs, qui peuvent fixer les prix, et par les entreprises d'IA, qui peuvent choisir d'accéder ou non aux pages web à ces tarifs, a déclaré la société.

Dans cette optique, Cloudflare aborde le problème sous divers angles. Une réflexion qui a donné lieu entre autres à l'outil AI Labyrinth, un leurre sophistiqué qui dirige les bots IA vers un labyrinthe de pages inutiles générées automatiquement, consommant leurs ressources et empêchant l’entraînement efficace des modèles.

Ces mesures sont une tentative de rééquilibrer le pouvoir entre les créateurs de contenu et les géants de l'IA qui s'appuient sur de vastes ensembles de données pour leurs modèles. Cloudflare souligne que l'utilisation de leur contenu dans les AI Overviews ne génère pas toujours un trafic retour significatif vers les sites sources.


Matthew Prince : « pas de crawler d'IA sans compensation »

Dans un billet de blog, Matthew Prince a lancé le Content Independence Day (littéralement jour de l'indépendance de contenu). Il a expliqué la motivation derrière certaines fonctionnalités déployés (ou en déploiement) par son entreprise concernant le nouveau contexte d'internet. En voici un extrait :

Il y a près de 30 ans, deux étudiants diplômés de l'université de Stanford - Larry Page et Sergey Brin - ont commencé à travailler sur un projet de recherche qu'ils ont appelé Backrub. C'est bien sûr ce projet qui a donné naissance à Google. Mais il y a plus : il a créé le modèle économique du web.

Le marché conclu par Google avec les créateurs de contenu était simple : laissez-nous copier votre contenu pour la recherche, et nous vous enverrons du trafic. En tant que créateur de contenu, vous pouviez alors tirer parti de ce trafic de trois façons : en diffusant des publicités, en vendant des abonnements, ou simplement en éprouvant le plaisir de savoir que quelqu'un consommait votre contenu.

Google a facilité tout cela. La recherche génère du trafic. Il a acquis DoubleClick et créé AdSense pour aider les créateurs de contenu à diffuser des annonces. Il a également racheté Urchin pour lancer Google Analytics, qui vous permet de savoir qui consulte votre contenu à un moment donné.

Pendant près de trente ans, cette relation a défini le web et lui a permis de prospérer.

Mais cette relation est en train de changer. Pour la première fois depuis plus de dix ans, le pourcentage de recherches effectuées sur Google est en baisse. Qu'est-ce qui prend sa place ? L'IA.

Google lui-même a changé. Alors qu'il y a dix ans, il présentait une liste de liens et affirmait que le succès consistait à vous faire quitter son site le plus rapidement possible, il a aujourd'hui ajouté une boîte de réponse et, plus récemment, des AI Overviews qui viennent répondre aux questions des utilisateurs sans qu'ils aient à quitter Google.com. Grâce à la boîte de réponse, les chercheurs ont constaté que 75 % des requêtes mobiles trouvaient une réponse sans que les utilisateurs ne quittent Google. Avec le lancement plus récent d'AI Overviews, ce chiffre est encore plus élevé.

Si cela plaît aux utilisateurs de Google, les créateurs de contenu en pâtissent. Google copie toujours le contenu des créateurs, mais au cours des dix dernières années, en raison des changements apportés à l'interface utilisateur de la « recherche », il est devenu presque dix fois plus difficile pour un créateur de contenu d'obtenir le même volume de trafic. Cela signifie qu'il est 10 fois plus difficile de générer de la valeur à partir de publicités, d'abonnements ou de l'ego de savoir que quelqu'un s'intéresse à ce que vous avez créé.

Voilà pour la bonne nouvelle. La situation est encore pire avec les outils d'IA d'aujourd'hui. Avec OpenAI, il est 750 fois plus difficile d'obtenir du trafic qu'avec le Google d'autrefois. Avec Anthropic, c'est 30 000 fois plus difficile. La raison en est simple : de plus en plus, nous ne consommons pas des originaux, mais des dérivés.

Le problème est que, que vous créiez du contenu pour vendre des publicités, des abonnements ou simplement pour savoir que les gens apprécient ce que vous avez créé, un web piloté par l'IA ne récompense pas les créateurs de contenu de la même manière que l'ancien web piloté par la recherche. Cela signifie que l'accord conclu par Google pour prendre du contenu en échange de l'envoi de trafic n'a plus aucun sens.

Au lieu d'être un échange équitable, le web est miné par les robots d'indexation de l'IA, les créateurs de contenu ne voyant presque pas de trafic et donc presque pas de valeur.

Cela change aujourd'hui, le 1er juillet, ce que nous appelons le Jour de l'Indépendance du Contenu. Cloudflare, ainsi que la majorité des principaux éditeurs et entreprises d'IA du monde, modifie les paramètres par défaut pour bloquer les robots d'IA, à moins qu'ils ne paient les créateurs pour leur contenu. Ce contenu est le carburant qui alimente les moteurs d'IA, et il n'est donc que juste que les créateurs de contenu soient rémunérés directement pour cela.


Ce qui se joue réellement : le futur du web libre

En réalité, ce conflit dépasse le cas technique du crawling. Il révèle un changement fondamental du contrat social du web :
  • Jusqu’ici, publier du contenu sur Internet revenait implicitement à autoriser son indexation par les moteurs, en échange de trafic.
  • Mais l’émergence des IA bouleverse cela : elles « consomment » le web sans lui rendre de valeur, ce qui mine l’économie des éditeurs.

Cloudflare veut rétablir l’équilibre en imposant un modèle fondé sur l’autorisation et la rémunération, où l’usage IA du contenu ne peut plus se faire dans l’ombre.

Ce que propose Cloudflare, c’est donc un nouveau pacte pour le web :
  • Vous pouvez continuer à indexer librement les contenus,
  • Mais si vous les utilisez pour de l’IA, vous devez demander la permission et potentiellement payer.

D'accord, mais comment cela pourrait-il fonctionner ?

La semaine dernière, un blogueur spécialisé dans les voyages a soulevé des questions sur le blocage et sur les fonctions dites de paiement au crawl, ce qui a poussé le PDG de Cloudflare, Matthew Prince, à répondre sur X (anciennement Twitter) :

« Nous obtiendrons de Google qu'il fournisse des moyens de bloquer Answer Box et AI Overview, sans bloquer l'indexation de la recherche classique », a déclaré Prince. Lorsqu'on lui a demandé si cela était possible, Matthew Prince a répondu par l'affirmative : « c'est possible. #staytuned"»

Dans un autre message répondant à un spécialiste de l'optimisation des moteurs de recherche, il a affirmé que Cloudflare était en pourparlers « encourageants » avec Google qui, espère-t-il, séparera ses robots d'indexation pour qu'ils fonctionnent mieux dans le système de Cloudflare. Mais si ces discussions n'aboutissent pas, il a révélé que Cloudflare fait pression pour qu'une loi soit adoptée, considérée comme une « option très viable » dans « de nombreuses juridictions ».

« Dans le pire des cas, nous ferons passer une loi quelque part qui les obligera à sortir leurs crawlers et à annoncer toutes les voies d'accès à leurs crawlers à partir de là », a déclaré Prince. « Et ce ne serait pas difficile. Mais j'espère que nous n'aurons pas à en arriver là ».

Pour nuancer ses propos, il faut rappeler que l'adoption de lois sur la technologie est notoirement difficile, en partie parce que la technologie continue de progresser alors que les débats politiques s'éternisent, et les défis liés à la réglementation de l'intelligence artificielle sont un exemple évident de ce schéma aujourd'hui.


La position probable de Google

Malgré les pressions de Cloudflare, il est peu probable que Google modifie radicalement ses méthodes de crawling d'IA. Le système de Google est conçu pour intégrer étroitement l'exploration de l'IA et l'indexation de recherche standard. Séparer ces processus pourrait entraîner des défis techniques complexes et potentiellement compromettre la qualité et l'efficacité de ses résultats de recherche enrichis par l'IA.

Historiquement, Google a été réticent à offrir un contrôle granulaire qui pourrait limiter l'accès à l'information nécessaire à ses services. Bien qu'il existe des options comme le fichier robots.txt ou la balise nosnippet, celles-ci affectent souvent à la fois l'IA et l'indexation traditionnelle, ce qui n'est pas la solution souhaitée par Cloudflare.

De plus, bien que Cloudflare ait pointé du doigt Google, d'autres moteurs de recherche qui considèrent les fonctions de recherche par IA comme faisant partie de leurs produits de recherche utilisent également les mêmes robots pour l'entraînement que pour l'indexation des recherches. Il est probable que la législation proposée par Cloudflare se heurte à la résistance des entreprises technologiques qui se trouvent dans une position similaire à celle de Google, car le Wall Street Journal a rapporté que les entreprises technologiques « ont peu d'incitations à travailler avec des intermédiaires ».

En outre, l'initiative de Cloudflare est critiquée par ceux qui « craignent que la recherche universitaire, les analyses de sécurité et d'autres types d'exploration bénigne du web soient écartés des sites web à mesure que des barrières sont érigées autour d'un plus grand nombre de sites » grâce aux blocages et aux paywalls de Cloudflare, selon le WSJ. Le système de Cloudflare pourrait également menacer des projets web tels que The Internet Archive, qui a notamment joué un rôle crucial en aidant à retrouver les données supprimées des sites web gouvernementaux après l'entrée en fonction de Donald Trump.

Parmi les commentateurs discutant des affirmations de Cloudflare concernant Google sur Search Engine Round Table, un utilisateur a suggéré que Cloudflare pourrait risquer un procès ou d'autres pénalités de la part de Google pour avoir provoqué l'ours.

Les perspectives et les enjeux

Matthew Prince, le PDG de Cloudflare, a exprimé son optimisme quant à la possibilité de trouver une solution avec Google, suggérant que des discussions sont en cours. Il a même évoqué la possibilité de faire pression pour l'adoption d'une législation obligeant Google à différencier ses crawlers si la coopération échouait. Prince estime que Google a techniquement les moyens de séparer ses crawlers pour s'adapter au système de Cloudflare.

Cette situation met en lumière une tension croissante entre les entreprises technologiques qui construisent des modèles d'IA et les propriétaires de contenu qui voient leurs données utilisées sans compensation directe ni contrôle. L'issue de ce bras de fer pourrait avoir des implications majeures pour l'avenir du web, influençant la manière dont le contenu est monétisé, protégé et accessible dans l'ère de l'intelligence artificielle.

Ce bras de fer marque un tournant dans les relations entre créateurs de contenu, entreprises technologiques et plateformes d’IA. À travers ce conflit, c’est toute l’économie de la donnée sur Internet qui est remise en question. Et pour une fois, ce ne sont pas les petits éditeurs qui osent s’opposer, mais un acteur majeur de l’infrastructure du web.

Sources : Cloudflare (1, 2), Matthew Prince sur X (1, 2)

Et vous ?

Que pensez-vous de cette perspective de Cloudflare et de son approche pour résoudre le problème ? A-t-elle des chances d'aboutir selon vous ?

Si les éditeurs pouvaient bloquer sélectivement les crawlers d'IA, quels seraient les avantages concrets et les risques potentiels pour leur visibilité en ligne et leur modèle économique ?

Est-il viable de créer un modèle « Pay-per-crawl » pour les bots IA ? Faut-il envisager une « licence universelle » pour l’utilisation des contenus publics par les IA, comme dans le domaine musical ?

Quelles formes de compensation pourraient être justes : micropaiement, abonnement, attribution, partage de revenus ?
Vous avez lu gratuitement 428 articles depuis plus d'un an.
Soutenez le club developpez.com en souscrivant un abonnement pour que nous puissions continuer à vous proposer des publications.

Une erreur dans cette actualité ? Signalez-nous-la !