IdentifiantMot de passe
Loading...
Mot de passe oublié ?Je m'inscris ! (gratuit)

Vous êtes nouveau sur Developpez.com ? Créez votre compte ou connectez-vous afin de pouvoir participer !

Vous devez avoir un compte Developpez.com et être connecté pour pouvoir participer aux discussions.

Vous n'avez pas encore de compte Developpez.com ? Créez-en un en quelques instants, c'est entièrement gratuit !

Si vous disposez déjà d'un compte et qu'il est bien activé, connectez-vous à l'aide du formulaire ci-dessous.

Identifiez-vous
Identifiant
Mot de passe
Mot de passe oublié ?
Créer un compte

L'inscription est gratuite et ne vous prendra que quelques instants !

Je m'inscris !

La start-up spécialisée dans l'IA Perplexity déploie des robots d'indexation non déclarés qui se font passer pour des navigateurs Chrome classiques afin de contourner le bloquage des sites web

Le , par Alex

3PARTAGES

8  0 
La start-up spécialisée dans l'IA Perplexity déploie des robots d'indexation non déclarés qui se font passer pour des navigateurs Chrome classiques afin de contourner le bloquage des sites web.

L'équipe de Cloudflare a révélé un comportement de crawling furtif de la part de Perplexity. Bien que Perplexity effectue initialement le crawling à partir de son agent utilisateur déclaré, lorsqu'il se heurte à un blocage réseau, il semble dissimuler son identité de crawling afin de contourner les préférences du site web. Selon Cloudflare, Perplexity modifie à plusieurs reprises et de de manière continue son agent utilisateur et change ses ASN sources afin de dissimuler son activité de crawling, tout en ignorant, voire en omettant parfois de récupérer, les fichiers robots.txt.

En juillet, Cloudflare a annoncé bloquer par défaut l'accès des robots d'indexation d'intelligence artificielle (IA) aux pages web, tout en offrant aux propriétaires de sites des options plus granulaires pour contrôler le type de robots d'IA qui indexent leurs pages. De plus, Cloudflare a lancé une nouvelle initiative visant à faire payer les services d'IA pour accéder à ces pages, appelée "Pay Per Crawl".

Matthew Prince, cofondateur et PDG de Cloudflare, avait commenté : "L'IA va fondamentalement changer le modèle économique du web. Depuis 15 ans, le modèle économique du web repose sur la recherche... La recherche est le moteur de tout ce qui se passe en ligne. Si Internet veut survivre à l'ère de l'IA, nous devons donner aux éditeurs le contrôle qu'ils méritent et construire un nouveau modèle économique qui fonctionne pour tout le monde : les créateurs, les consommateurs, les fondateurs de l'IA de demain et l'avenir du Web lui-même".

Avec cette vision, Cloudflare surveille et partage ses découvertes concernant ces robots d'indexation d'IA. Récemment, l'équipe de Cloudflare a révélé un comportement de crawling furtif de la part de Perplexity. Perplexity AI, ou simplement Perplexity, est une société privée de logiciels basée à San Francisco qui propose un moteur de recherche web qui traite les requêtes des utilisateurs et synthétise les réponses.

Perplexity AI utilise de grands modèles de langage et intègre des capacités de recherche Web en temps réel, ce qui lui permet de fournir des réponses basées sur le contenu actuel d'Internet. Grâce à une approche conversationnelle, Perplexity permet aux utilisateurs de poser des questions complémentaires et d'obtenir des réponses contextuelles. Toutes les réponses incluent des citations de leurs sources sur Internet afin de garantir la transparence et de permettre aux utilisateurs de vérifier les informations.


Bien que Perplexity effectue initialement le crawling à partir de son agent utilisateur déclaré, lorsqu'il se heurte à un blocage réseau, il semble dissimuler son identité de crawling afin de contourner les préférences du site web. Selon Cloudflare, Perplexity modifie à plusieurs reprises et de de manière continue son agent utilisateur et change ses ASN sources afin de dissimuler son activité de crawling, tout en ignorant, voire en omettant parfois de récupérer, les fichiers robots.txt.

L'Internet tel que nous le connaissons depuis trois décennies évolue rapidement, mais une chose reste constante : il repose sur la confiance. Il existe des préférences claires selon lesquelles les robots d'exploration doivent être transparents, servir un objectif clair, effectuer une activité spécifique et, surtout, respecter les directives et les préférences des sites web. Sur la base du comportement observé de Perplexity, qui est incompatible avec ces préférences, Cloudflare l'a retiré de la liste des robots vérifiés et a ajouté des heuristiques à ces règles gérées qui bloquent cette exploration furtive.

Voici comment l'équipe de Cloudflare a constaté ce comportement :

Comment nous avons procédé

Nous avons reçu des plaintes de clients qui avaient à la fois interdit l'activité de crawling de Perplexity dans leurs fichiers robots.txt et créé des règles WAF pour bloquer spécifiquement les deux crawlers déclarés par Perplexity : PerplexityBot et Perplexity-User. Ces clients nous ont indiqué que Perplexity était toujours en mesure d'accéder à leur contenu, même lorsqu'ils voyaient que ses bots étaient bloqués avec succès. Nous avons confirmé que les robots d'exploration de Perplexity étaient effectivement bloqués sur les pages spécifiques en question, puis nous avons effectué plusieurs tests ciblés pour confirmer le comportement exact que nous pouvions observer.

Nous avons créé plusieurs nouveaux domaines, similaires à testexample.com et secretexample.com. Ces domaines avaient été récemment achetés et n'avaient encore été indexés par aucun moteur de recherche ni rendus accessibles au public de manière identifiable. Nous avons mis en place un fichier robots.txt contenant des directives visant à empêcher tout robot respectueux d'accéder à une partie quelconque d'un site web :


Nous avons mené une expérience en interrogeant Perplexity AI sur ces domaines et avons découvert que Perplexity fournissait toujours des informations détaillées sur le contenu exact hébergé sur chacun de ces domaines restreints. Cette réponse était inattendue, car nous avions pris toutes les précautions nécessaires pour empêcher leurs robots d'indexation d'accéder à ces données.



Comportement d'obfuscation observé

Les multiples domaines de test interdisaient explicitement tout accès automatisé en le spécifiant dans robots.txt et disposaient de règles WAF spécifiques qui bloquaient l'exploration par les robots d'exploration publics de Perplexity. Selon Cloudflare, Perplexity utilise non seulement son agent utilisateur déclaré, mais aussi un navigateur générique destiné à imiter Google Chrome sur macOS lorsque son robot d'indexation déclaré était bloqué.


Leurs robots d'indexation déclarés et non déclarés tentaient d'accéder au contenu à des fins de scraping, contrairement aux normes d'indexation web décrites dans la RFC 9309.

Ce robot d'indexation non déclaré utilisait plusieurs adresses IP ne figurant pas dans la plage d'adresses IP officielle de Perplexity, et alternait entre ces adresses IP en réponse à la politique restrictive du fichier robots.txt et au blocage de Cloudflare. En plus de l'alternance des adresses IP, Cloudflare a observé des requêtes provenant de différents ASN dans le but de contourner davantage les blocages de sites web. Cette activité a été observée sur des dizaines de milliers de domaines et des millions de requêtes par jour. Ce robot d'indexation a été identifié en combinant l'apprentissage automatique et les signaux réseau.


Lorsque le robot d'indexation furtif a été bloqué avec succès, Perplexity utilise d'autres sources de données, y compris d'autres sites web, pour tenter de créer une réponse. Cependant, ces réponses étaient moins précises et manquaient de détails par rapport au contenu original, ce qui reflète le fait que le blocage avait été efficace.

Comment les opérateurs de robots bien intentionnés respectent les préférences des sites web

Contrairement au comportement décrit ci-dessus, Internet a exprimé des préférences claires sur la manière dont les bons robots d'indexation doivent se comporter. Tous les robots d'indexation bien intentionnés agissant de bonne foi doivent :

  • Être transparents. S'identifier honnêtement, en utilisant un agent utilisateur unique, une liste déclarée de plages d'adresses IP ou l'intégration Web Bot Auth, et fournir des coordonnées en cas de problème.
  • Être des internautes bien élevés. Ne pas inonder les sites de trafic excessif, ne pas récupérer de données sensibles et ne pas utiliser de tactiques furtives pour tenter d'échapper à la détection.
  • Avoir un objectif clair. Qu'il s'agisse d'alimenter un assistant vocal, de vérifier les prix des produits ou de rendre un site Web plus accessible, chaque bot a une raison d'être. L'objectif doit être clairement et précisément défini et facile à consulter publiquement pour les propriétaires de sites.
  • Séparez les bots pour les différentes activités. Effectuez chaque activité à partir d'un bot unique. Cela permet aux propriétaires de sites de décider facilement quelles activités ils souhaitent autoriser. Ne forcez pas les propriétaires de sites à prendre une décision radicale.
  • Respectez les règles. Cela signifie vérifier et respecter les signaux du site web tels que robots.txt, respecter les limites de fréquence et ne jamais contourner les protections de sécurité.


Cloudflare commente dans son rapport :

OpenAI est un exemple d'entreprise leader dans le domaine de l'IA qui suit ces bonnes pratiques. Elle décrit clairement ses robots d'indexation et fournit des explications détaillées sur l'objectif de chacun d'entre eux. Elle respecte le fichier robots.txt et n'essaie pas de contourner les directives robots.txt ou les blocages au niveau du réseau. De plus, ChatGPT Agent signe les requêtes http à l'aide de la nouvelle norme ouverte Web Bot Auth.

Lorsque nous avons effectué le même test que celui décrit ci-dessus avec ChatGPT, nous avons constaté que ChatGPT-User récupérait le fichier robots et cessait le crawling lorsqu'il était interdit. Nous n'avons observé aucun crawling supplémentaire de la part d'autres agents utilisateurs ou bots tiers. Lorsque nous avons supprimé la directive d'interdiction de l'entrée robots, mais présenté une page de blocage à ChatGPT, celui-ci a de nouveau cessé le crawling et nous n'avons constaté aucune tentative de crawling supplémentaire de la part d'autres agents utilisateurs. Ces deux exemples illustrent la réponse appropriée aux préférences des propriétaires de sites web.
Comment pouvez-vous vous protéger ?

Toutes les activités d'exploration non déclarées observées à partir de l'agent utilisateur caché de Perplexity ont été classées par le système de gestion des bots de Cloudflare comme des bots et n'ont pas pu passer les défis gérés. Tout client de gestion des bots qui a mis en place une règle de blocage existante est déjà protégé. Les clients qui ne souhaitent pas bloquer le trafic peuvent configurer des règles pour contester les demandes, donnant ainsi aux vrais humains la possibilité de continuer. Les clients qui ont déjà mis en place des règles de contestation sont déjà protégés.

Cloudflare a également ajouté des correspondances de signatures pour le robot d'exploration furtif dans sa règle gérée qui bloque l'activité d'exploration de l'IA. Cette règle est disponible pour tous ses clients, y compris ses clients gratuits. En outre, Cloudflare affirme travailler activement avec des experts techniques et politiques du monde entier, comme l'IETF qui s'efforce de normaliser les extensions de robots.txt, afin d'établir des principes clairs et mesurables que les opérateurs de bots bien intentionnés devraient respecter.

Cette position de Cloudflare concernant les crawler IA a déjà été évoquée par son PDG en mai 2025. Matthew Prince a notamment déclaré lors d'une conférence abordant l'impact fondamental de l'IA sur les modèles d'entreprise en ligne : "L'échange de valeur entre Google et les créateurs de contenu ne cesse de se détériorer. Il y a près de dix ans, lorsque Google scrapait toutes les deux pages, il envoyait un visiteur aux sites web. Ce système pouvait être considéré comme un échange, mais aujourd'hui, il faudrait six pages pour qu'un site web reçoive un seul visiteur."

Aujourd'hui, 75 % des questions trouvent une réponse sans que l'utilisateur ne quitte le moteur de recherche. Selon le PDG de Cloudflare, l'IA ne fait qu'empirer les choses et les grands modèles de langage viennent s'ajouter à ce problème majeur. Il faut savoir que les entreprises spécialisées dans l'IA continuent de récupérer plus de contenu pour chaque interaction avec l'utilisateur que ce que Google a fait jusqu'à présent. Le rendement pour les créateurs ne cesse donc de se détériorer. Matthew Prince a qualifié l'IA de fardeau économique, qui brise le modèle économique du web en découplant la création de contenu de la valeur.

À propos de Cloudflare

Cloudflare, le leader dans le domaine du cloud de connectivité, s'est donné pour mission de contribuer à bâtir un Internet meilleur. Cloudflare fournit aux entreprises les moyens nécessaires pour rendre leurs collaborateurs, leurs applications et leurs réseaux plus rapides et plus sûrs, partout dans le monde, tout en réduisant la complexité et les coûts. Le cloud de connectivité Cloudflare propose une plateforme unifiée complète en matière de produits et d'outils de développement cloud-native, permettant à toutes les entreprises de bénéficier des mesures de contrôle dont elles ont besoin pour travailler, développer et dynamiser leur activité.

Source : Cloudflare

Et vous ?

Pensez-vous que ce rapport est crédible ou pertinent ?
Quel est votre avis sur le sujet ?

Voir aussi :

Perplexity AI, un moteur de recherche basé sur l'IA, semble mentir sur l'agent utilisateur qu'il envoie explorer les sites Web, il est dissimulé et ignore le fichier robot.txt pour extraire des informations

Cloudflare retourne l'IA contre elle-même en déployant un labyrinthe sans fin de faits non pertinents, pour lutter contre le scraping non autorisé de données d'entraînement d'IA comme ChatGPT

Cloudflare exige que Google modifie la façon dont ses outils IA explorent le web : « Nous obtiendrons de Google un moyen de bloquer les IA Overviews sans bloquer l'indexation de la recherche classique »
Vous avez lu gratuitement 1 527 articles depuis plus d'un an.
Soutenez le club developpez.com en souscrivant un abonnement pour que nous puissions continuer à vous proposer des publications.

Une erreur dans cette actualité ? Signalez-nous-la !