La start-up spécialisée dans l'IA Perplexity déploie des robots d'indexation non déclarés qui se font passer pour des navigateurs Chrome classiques afin de contourner le bloquage des sites web

Le 5 août 2025 à 09:12, par Alex

65PARTAGES

L'équipe de Cloudflare a révélé un comportement de crawling furtif de la part de Perplexity. Bien que Perplexity effectue initialement le crawling à partir de son agent utilisateur déclaré, lorsqu'il se heurte à un blocage réseau, il semble dissimuler son identité de crawling afin de contourner les préférences du site web. Selon Cloudflare, Perplexity modifie à plusieurs reprises et de de manière continue son agent utilisateur et change ses ASN sources afin de dissimuler son activité de crawling, tout en ignorant, voire en omettant parfois de récupérer, les fichiers robots.txt.

En juillet, Cloudflare a annoncé bloquer par défaut l'accès des robots d'indexation d'intelligence artificielle (IA) aux pages web, tout en offrant aux propriétaires de sites des options plus granulaires pour contrôler le type de robots d'IA qui indexent leurs pages. De plus, Cloudflare a lancé une nouvelle initiative visant à faire payer les services d'IA pour accéder à ces pages, appelée "Pay Per Crawl".

Matthew Prince, cofondateur et PDG de Cloudflare, avait commenté : "L'IA va fondamentalement changer le modèle économique du web. Depuis 15 ans, le modèle économique du web repose sur la recherche... La recherche est le moteur de tout ce qui se passe en ligne. Si Internet veut survivre à l'ère de l'IA, nous devons donner aux éditeurs le contrôle qu'ils méritent et construire un nouveau modèle économique qui fonctionne pour tout le monde : les créateurs, les consommateurs, les fondateurs de l'IA de demain et l'avenir du Web lui-même".

Avec cette vision, Cloudflare surveille et partage ses découvertes concernant ces robots d'indexation d'IA. Récemment, l'équipe de Cloudflare a révélé un comportement de crawling furtif de la part de Perplexity. Perplexity AI, ou simplement Perplexity, est une société privée de logiciels basée à San Francisco qui propose un moteur de recherche web qui traite les requêtes des utilisateurs et synthétise les réponses.

Perplexity AI utilise de grands modèles de langage et intègre des capacités de recherche Web en temps réel, ce qui lui permet de fournir des réponses basées sur le contenu actuel d'Internet. Grâce à une approche conversationnelle, Perplexity permet aux utilisateurs de poser des questions complémentaires et d'obtenir des réponses contextuelles. Toutes les réponses incluent des citations de leurs sources sur Internet afin de garantir la transparence et de permettre aux utilisateurs de vérifier les informations.

Bien que Perplexity effectue initialement le crawling à partir de son agent utilisateur déclaré, lorsqu'il se heurte à un blocage réseau, il semble dissimuler son identité de crawling afin de contourner les préférences du site web. Selon Cloudflare, Perplexity modifie à plusieurs reprises et de de manière continue son agent utilisateur et change ses ASN sources afin de dissimuler son activité de crawling, tout en ignorant, voire en omettant parfois de récupérer, les fichiers robots.txt.

L'Internet tel que nous le connaissons depuis trois décennies évolue rapidement, mais une chose reste constante : il repose sur la confiance. Il existe des préférences claires selon lesquelles les robots d'exploration doivent être transparents, servir un objectif clair, effectuer une activité spécifique et, surtout, respecter les directives et les préférences des sites web. Sur la base du comportement observé de Perplexity, qui est incompatible avec ces préférences, Cloudflare l'a retiré de la liste des robots vérifiés et a ajouté des heuristiques à ces règles gérées qui bloquent cette exploration furtive.

Voici comment l'équipe de Cloudflare a constaté ce comportement :

Comment nous avons procédé

Nous avons reçu des plaintes de clients qui avaient à la fois interdit l'activité de crawling de Perplexity dans leurs fichiers robots.txt et créé des règles WAF pour bloquer spécifiquement les deux crawlers déclarés par Perplexity : PerplexityBot et Perplexity-User. Ces clients nous ont indiqué que Perplexity était toujours en mesure d'accéder à leur contenu, même lorsqu'ils voyaient que ses bots étaient bloqués avec succès. Nous avons confirmé que les robots d'exploration de Perplexity étaient effectivement bloqués sur les pages spécifiques en question, puis nous avons effectué plusieurs tests ciblés pour confirmer le comportement exact que nous pouvions observer.

Nous avons créé plusieurs nouveaux domaines, similaires à testexample.com et secretexample.com. Ces domaines avaient été récemment achetés et n'avaient encore été indexés par aucun moteur de recherche ni rendus accessibles au public de manière identifiable. Nous avons mis en place un fichier robots.txt contenant des directives visant à empêcher tout robot respectueux d'accéder à une partie quelconque d'un site web :

Nous avons mené une expérience en interrogeant Perplexity AI sur ces domaines et avons découvert que Perplexity fournissait toujours des informations détaillées sur le contenu exact hébergé sur chacun de ces domaines restreints. Cette réponse était inattendue, car nous avions pris toutes les précautions nécessaires pour empêcher leurs robots d'indexation d'accéder à ces données.

Comportement d'obfuscation observé

Les multiples domaines de test interdisaient explicitement tout accès automatisé en le spécifiant dans robots.txt et disposaient de règles WAF spécifiques qui bloquaient l'exploration par les robots d'exploration publics de Perplexity. Selon Cloudflare, Perplexity utilise non seulement son agent utilisateur déclaré, mais aussi un navigateur générique destiné à imiter Google Chrome sur macOS lorsque son robot d'indexation déclaré était bloqué.

Leurs robots d'indexation déclarés et non déclarés tentaient d'accéder au contenu à des fins de scraping, contrairement aux normes d'indexation web décrites dans la RFC 9309.

Ce robot d'indexation non déclaré utilisait plusieurs adresses IP ne figurant pas dans la plage d'adresses IP officielle de Perplexity, et alternait entre ces adresses IP en réponse à la politique restrictive du fichier robots.txt et au blocage de Cloudflare. En plus de l'alternance des adresses IP, Cloudflare a observé des requêtes provenant de différents ASN dans le but de contourner davantage les blocages de sites web. Cette activité a été observée sur des dizaines de milliers de domaines et des millions de requêtes par jour. Ce robot d'indexation a été identifié en combinant l'apprentissage automatique et les signaux réseau.

Lorsque le robot d'indexation furtif a été bloqué avec succès, Perplexity utilise d'autres sources de données, y compris d'autres sites web, pour tenter de créer une réponse. Cependant, ces réponses étaient moins précises et manquaient de détails par rapport au contenu original, ce qui reflète le fait que le blocage avait été efficace.

Comment les opérateurs de robots bien intentionnés respectent les préférences des sites web

Contrairement au comportement décrit ci-dessus, Internet a exprimé des préférences claires sur la manière dont les bons robots d'indexation doivent se comporter. Tous les robots d'indexation bien intentionnés agissant de bonne foi doivent :

Être transparents. S'identifier honnêtement, en utilisant un agent utilisateur unique, une liste déclarée de plages d'adresses IP ou l'intégration Web Bot Auth, et fournir des coordonnées en cas de problème.
Être des internautes bien élevés. Ne pas inonder les sites de trafic excessif, ne pas récupérer de données sensibles et ne pas utiliser de tactiques furtives pour tenter d'échapper à la détection.
Avoir un objectif clair. Qu'il s'agisse d'alimenter un assistant vocal, de vérifier les prix des produits ou de rendre un site Web plus accessible, chaque bot a une raison d'être. L'objectif doit être clairement et précisément défini et facile à consulter publiquement pour les propriétaires de sites.
Séparez les bots pour les différentes activités. Effectuez chaque activité à partir d'un bot unique. Cela permet aux propriétaires de sites de décider facilement quelles activités ils souhaitent autoriser. Ne forcez pas les propriétaires de sites à prendre une décision radicale.
Respectez les règles. Cela signifie vérifier et respecter les signaux du site web tels que robots.txt, respecter les limites de fréquence et ne jamais contourner les protections de sécurité.

Cloudflare commente dans son rapport :

OpenAI est un exemple d'entreprise leader dans le domaine de l'IA qui suit ces bonnes pratiques. Elle décrit clairement ses robots d'indexation et fournit des explications détaillées sur l'objectif de chacun d'entre eux. Elle respecte le fichier robots.txt et n'essaie pas de contourner les directives robots.txt ou les blocages au niveau du réseau. De plus, ChatGPT Agent signe les requêtes http à l'aide de la nouvelle norme ouverte Web Bot Auth.

Lorsque nous avons effectué le même test que celui décrit ci-dessus avec ChatGPT, nous avons constaté que ChatGPT-User récupérait le fichier robots et cessait le crawling lorsqu'il était interdit. Nous n'avons observé aucun crawling supplémentaire de la part d'autres agents utilisateurs ou bots tiers. Lorsque nous avons supprimé la directive d'interdiction de l'entrée robots, mais présenté une page de blocage à ChatGPT, celui-ci a de nouveau cessé le crawling et nous n'avons constaté aucune tentative de crawling supplémentaire de la part d'autres agents utilisateurs. Ces deux exemples illustrent la réponse appropriée aux préférences des propriétaires de sites web.

Comment pouvez-vous vous protéger ?

Toutes les activités d'exploration non déclarées observées à partir de l'agent utilisateur caché de Perplexity ont été classées par le système de gestion des bots de Cloudflare comme des bots et n'ont pas pu passer les défis gérés. Tout client de gestion des bots qui a mis en place une règle de blocage existante est déjà protégé. Les clients qui ne souhaitent pas bloquer le trafic peuvent...

La fin de cet article est réservée aux abonnés. Soutenez le Club Developpez.com en prenant un abonnement pour que nous puissions continuer à vous proposer des publications.

Une erreur dans cette actualité ? Signalez-nous-la !

Votre nom : Votre e-mail :

Décrivez l'erreur que vous souhaitez porter à notre connaissance :

Identifiez-vous

Créer un compte

La start-up spécialisée dans l'IA Perplexity déploie des robots d'indexation non déclarés qui se font passer pour des navigateurs Chrome classiques afin de contourner le bloquage des sites web

Identifiant
Mot de passe

Mot de passe oublié ?