L'équipe de Cloudflare a révélé un comportement de crawling furtif de la part de Perplexity. Bien que Perplexity effectue initialement le crawling à partir de son agent utilisateur déclaré, lorsqu'il se heurte à un blocage réseau, il semble dissimuler son identité de crawling afin de contourner les préférences du site web. Selon Cloudflare, Perplexity modifie à plusieurs reprises et de de manière continue son agent utilisateur et change ses ASN sources afin de dissimuler son activité de crawling, tout en ignorant, voire en omettant parfois de récupérer, les fichiers robots.txt.En juillet, Cloudflare a annoncé bloquer par défaut l'accès des robots d'indexation d'intelligence artificielle (IA) aux pages web, tout en offrant aux propriétaires de sites des options plus granulaires pour contrôler le type de robots d'IA qui indexent leurs pages. De plus, Cloudflare a lancé une nouvelle initiative visant à faire payer les services d'IA pour accéder à ces pages, appelée "Pay Per Crawl".
Matthew Prince, cofondateur et PDG de Cloudflare, avait commenté : "L'IA va fondamentalement changer le modèle économique du web. Depuis 15 ans, le modèle économique du web repose sur la recherche... La recherche est le moteur de tout ce qui se passe en ligne. Si Internet veut survivre à l'ère de l'IA, nous devons donner aux éditeurs le contrôle qu'ils méritent et construire un nouveau modèle économique qui fonctionne pour tout le monde : les créateurs, les consommateurs, les fondateurs de l'IA de demain et l'avenir du Web lui-même".
Avec cette vision, Cloudflare surveille et partage ses découvertes concernant ces robots d'indexation d'IA. Récemment, l'équipe de Cloudflare a révélé un comportement de crawling furtif de la part de Perplexity. Perplexity AI, ou simplement Perplexity, est une société privée de logiciels basée à San Francisco qui propose un moteur de recherche web qui traite les requêtes des utilisateurs et synthétise les réponses.
Perplexity AI utilise de grands modèles de langage et intègre des capacités de recherche Web en temps réel, ce qui lui permet de fournir des réponses basées sur le contenu actuel d'Internet. Grâce à une approche conversationnelle, Perplexity permet aux utilisateurs de poser des questions complémentaires et d'obtenir des réponses contextuelles. Toutes les réponses incluent des citations de leurs sources sur Internet afin de garantir la transparence et de permettre aux utilisateurs de vérifier les informations.
Bien que Perplexity effectue initialement le crawling à partir de son agent utilisateur déclaré, lorsqu'il se heurte à un blocage réseau, il semble dissimuler son identité de crawling afin de contourner les préférences du site web. Selon Cloudflare, Perplexity modifie à plusieurs reprises et de de manière continue son agent utilisateur et change ses ASN sources afin de dissimuler son activité de crawling, tout en ignorant, voire en omettant parfois de récupérer, les fichiers robots.txt.
L'Internet tel que nous le connaissons depuis trois décennies évolue rapidement, mais une chose reste constante : il repose sur la confiance. Il existe des préférences claires selon lesquelles les robots d'exploration doivent être transparents, servir un objectif clair, effectuer une activité spécifique et, surtout, respecter les directives et les préférences des sites web. Sur la base du comportement observé de Perplexity, qui est incompatible avec ces préférences, Cloudflare l'a retiré de la liste des robots vérifiés et a ajouté des heuristiques à ces règles gérées qui bloquent cette exploration furtive.
Voici comment l'équipe de Cloudflare a constaté ce comportement :
Comment nous avons procédé
Nous avons reçu des plaintes de clients qui avaient à la fois interdit l'activité de crawling de Perplexity dans leurs fichiers robots.txt et créé des règles WAF pour bloquer spécifiquement les deux crawlers déclarés par Perplexity : PerplexityBot et Perplexity-User. Ces clients nous ont indiqué que Perplexity était toujours en mesure d'accéder à leur contenu, même lorsqu'ils voyaient que ses bots étaient bloqués avec succès. Nous avons confirmé que les robots d'exploration de Perplexity étaient effectivement bloqués sur les pages spécifiques en question, puis nous avons effectué plusieurs tests ciblés pour confirmer le comportement exact que nous pouvions observer.
Nous avons créé plusieurs nouveaux domaines, similaires à testexample.com et secretexample.com. Ces domaines avaient été récemment achetés et n'avaient encore été indexés par aucun moteur de recherche ni rendus accessibles au public de manière identifiable. Nous avons mis en place un fichier robots.txt contenant des directives visant à empêcher tout robot respectueux d'accéder à une partie quelconque d'un site web :

Nous avons mené une expérience en interrogeant Perplexity AI sur ces domaines et avons découvert que Perplexity fournissait toujours des informations détaillées sur le contenu exact hébergé sur chacun de ces domaines restreints. Cette réponse était inattendue, car nous avions pris toutes les précautions nécessaires pour empêcher leurs robots d'indexation d'accéder à ces données.

Nous avons reçu des plaintes de clients qui avaient à la fois interdit l'activité de crawling de Perplexity dans leurs fichiers robots.txt et créé des règles WAF pour bloquer spécifiquement les deux crawlers déclarés par Perplexity : PerplexityBot et Perplexity-User. Ces clients nous ont indiqué que Perplexity était toujours en mesure d'accéder à leur contenu, même lorsqu'ils voyaient que ses bots étaient bloqués avec succès. Nous avons confirmé que les robots d'exploration de Perplexity étaient effectivement bloqués sur les pages spécifiques en question, puis nous avons effectué plusieurs tests ciblés pour confirmer le comportement exact que nous pouvions observer.
Nous avons créé plusieurs nouveaux domaines, similaires à testexample.com et secretexample.com. Ces domaines avaient été récemment achetés et n'avaient encore été indexés par aucun moteur de recherche ni rendus accessibles au public de manière identifiable. Nous avons mis en place un fichier robots.txt contenant des directives visant à empêcher tout robot respectueux d'accéder à une partie quelconque d'un site web :
Nous avons mené une expérience en interrogeant Perplexity AI sur ces domaines et avons découvert que Perplexity fournissait toujours des informations détaillées sur le contenu exact hébergé sur chacun de ces domaines restreints. Cette réponse était inattendue, car nous avions pris toutes les précautions nécessaires pour empêcher leurs robots d'indexation d'accéder à ces données.
Les multiples domaines de test interdisaient explicitement tout accès automatisé en le spécifiant dans robots.txt et disposaient de règles WAF spécifiques qui bloquaient l'exploration par les robots d'exploration publics de Perplexity. Selon Cloudflare, Perplexity utilise non seulement son agent utilisateur déclaré, mais aussi un navigateur générique destiné à imiter Google...
La fin de cet article est réservée aux abonnés. Soutenez le Club Developpez.com en prenant un abonnement pour que nous puissions continuer à vous proposer des publications.