Une récente enquête de Cloudflare a conclu que Perplexity utilise des robots d'indexation furtifs et non déclarés pour contourner les directives interdisant l'exploration des sites Web. Perplexity parvient ainsi à accéder à des contenus Web pourtant explicitement bloqués afin d'alimenter son monteur de réponses. Ce comportement enfreint les règles que de nombreux sites Web mettent en place pour limiter l’exploitation abusive et automatisée de leurs données. Mais Perplexity rejette les conclusions de l'enquête de Cloudflare. La startup d'IA affirme que les allégations Cloudflare concernant le scraping furtif reposent sur des erreurs embarrassantes.Perplexity AI est une plateforme qui combine un moteur de recherche et un chatbot basé sur l'IA. La plateforme utilise des technologies avancées comme le traitement du langage naturel (NLP) et l'apprentissage automatique pour fournir des réponses précises et complètes aux requêtes des utilisateurs. Elle est conçue pour effectuer des recherches sur le Web en temps réel et offrir des informations actualisées sur divers sujets, au lieu d'une liste de liens.
Perplexity AI est doté d'une interface utilisateur intuitive pour aider les utilisateurs à trouver des informations sur un large éventail de sujets. Mais Perplexity fait l'objet de plusieurs critiques depuis l'année dernière, de nombreux experts ayant signalé un scraping abusif de la part de l'entreprise.
En juin 2024, le développeur Rob Knight a révélé que Perplexity ignore les instructions du fichier robots.txt et accède aux sites Web pour extraire le contenu, même lorsque les administrateurs interdisent l'accès à l'agent utilisateur de l'entreprise. Perplexity prétend que son agent utilisateur devrait apparaître sous le nom de « PerplexityBot », mais en réalité, il semble que le vrai agent utilisateur est dissimulé et parcourt les pages Web en toute discrétion.
Ces accusations se sont multipliées tout le long de la seconde moitié de l'année dernière. Forbes a accusé Perplexity d'avoir ignoré les règles des fichiers robots.txt de ses sites Web pour collecter le contenu de ses articles. Wired a également publié un rapport qui tire des conclusions similaires. De récentes accusations indiquent que Perplexity déguise ses robots d'indexation en navigateurs Chrome classiques afin de contourner le blocage des sites.
Perplexity s'appuie sur des crawlers furtifs pour accéder aux sites Web
Une récente enquête de Cloudflare a abouti à des conclusions similaires. Cloudflare a commencé son enquête après que ses clients se sont plaints du comportement de Perplexity. Ces clients ont rapporté avoir interdit à la fois « l'activité de crawling de Perplexity dans leurs fichiers de règle robots.txt et créé des règles WAF [Web Application Firewall] pour bloquer spécifiquement les deux crawlers déclarés par Perplexity : PerplexityBot et Perplexity-User ».
Malgré ces dispositions, les clients de Cloudflare ont rapporté que leur contenu se retrouvait toujours dans Perplexity. Cloudflare a alors mis en place de nouveaux domaines de test, interdisant explicitement tout accès automatisé dans ses fichiers robots.txt et via des règles WAF spécifiques qui bloquaient les crawlers reconnus de Perplexity. Cloudflare a constaté que Perplexity déploie des robots d'indexation non déclarés (furtifs) pour accéder aux sites.
Perplexity utilise des adresses IP ne figurant pas dans sa plage IP officielle et les fait tourner pour accéder aux contenus et aux enregistrements des sites. « En plus de la rotation des adresses IP, nous avons observé des requêtes provenant de différents numéros de système autonome pour contourner les blocages des sites. Cette activité a été observée sur des dizaines de milliers de domaines et des millions de requêtes par jour », a écrit Cloudflare.
Le résultat ? Cloudflare a rapporté avoir observé que « Perplexity avait accédé non seulement à ce type de contenu, mais était également capable de fournir des réponses détaillées à ce sujet lorsque les utilisateurs lui posaient des questions ». Ces observations confirment les plaintes des clients de Cloudflare. Le fournisseur de services d’infrastructure Web a annoncé qu'il travaille sur un système capable de bloquer le comportement de Perplexity.
Bien que Perplexity effectue initialement le crawling à partir de son agent utilisateur officiel, lorsqu'il se heurte à un blocage réseau, il semble dissimuler son identité de crawling pour contourner les préférences du site. Selon les administrateurs et éditeurs de sites Web, le comportement de Perplexity représente une menace existentielle pour leur modèle économique. Perplexity affirme toutefois que Cloudflare se trompe complètement sur ses crawlers.
Perplexity remet en cause la sécurité de l'infrastructure de Cloudflare
L'Internet tel que nous le connaissons depuis trois décennies évolue rapidement,...
La fin de cet article est réservée aux abonnés. Soutenez le Club Developpez.com en prenant un abonnement pour que nous puissions continuer à vous proposer des publications.