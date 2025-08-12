ajoutant que le blocage de Cloudflare menace laccessibilité du Web ouvert
Une récente enquête de Cloudflare a conclu que Perplexity utilise des robots d'indexation furtifs et non déclarés pour contourner les directives interdisant l'exploration des sites Web. Perplexity parvient ainsi à accéder à des contenus Web pourtant explicitement bloqués afin d'alimenter son monteur de réponses. Ce comportement enfreint les règles que de nombreux sites Web mettent en place pour limiter lexploitation abusive et automatisée de leurs données. Mais Perplexity rejette les conclusions de l'enquête de Cloudflare. La startup d'IA affirme que les allégations Cloudflare concernant le scraping furtif reposent sur des erreurs embarrassantes.
Perplexity AI est une plateforme qui combine un moteur de recherche et un chatbot basé sur l'IA. La plateforme utilise des technologies avancées comme le traitement du langage naturel (NLP) et l'apprentissage automatique pour fournir des réponses précises et complètes aux requêtes des utilisateurs. Elle est conçue pour effectuer des recherches sur le Web en temps réel et offrir des informations actualisées sur divers sujets, au lieu d'une liste de liens.
Perplexity AI est doté d'une interface utilisateur intuitive pour aider les utilisateurs à trouver des informations sur un large éventail de sujets. Mais Perplexity fait l'objet de plusieurs critiques depuis l'année dernière, de nombreux experts ayant signalé un scraping abusif de la part de l'entreprise.
En juin 2024, le développeur Rob Knight a révélé que Perplexity ignore les instructions du fichier robots.txt et accède aux sites Web pour extraire le contenu, même lorsque les administrateurs interdisent l'accès à l'agent utilisateur de l'entreprise. Perplexity prétend que son agent utilisateur devrait apparaître sous le nom de « PerplexityBot », mais en réalité, il semble que le vrai agent utilisateur est dissimulé et parcourt les pages Web en toute discrétion.
Ces accusations se sont multipliées tout le long de la seconde moitié de l'année dernière. Forbes a accusé Perplexity d'avoir ignoré les règles des fichiers robots.txt de ses sites Web pour collecter le contenu de ses articles. Wired a également publié un rapport qui tire des conclusions similaires. De récentes accusations indiquent que Perplexity déguise ses robots d'indexation en navigateurs Chrome classiques afin de contourner le blocage des sites.
Perplexity s'appuie sur des crawlers furtifs pour accéder aux sites Web
Une récente enquête de Cloudflare a abouti à des conclusions similaires. Cloudflare a commencé son enquête après que ses clients se sont plaints du comportement de Perplexity. Ces clients ont rapporté avoir interdit à la fois « l'activité de crawling de Perplexity dans leurs fichiers de règle robots.txt et créé des règles WAF [Web Application Firewall] pour bloquer spécifiquement les deux crawlers déclarés par Perplexity : PerplexityBot et Perplexity-User ».
Malgré ces dispositions, les clients de Cloudflare ont rapporté que leur contenu se retrouvait toujours dans Perplexity. Cloudflare a alors mis en place de nouveaux domaines de test, interdisant explicitement tout accès automatisé dans ses fichiers robots.txt et via des règles WAF spécifiques qui bloquaient les crawlers reconnus de Perplexity. Cloudflare a constaté que Perplexity déploie des robots d'indexation non déclarés (furtifs) pour accéder aux sites.
Perplexity utilise des adresses IP ne figurant pas dans sa plage IP officielle et les fait tourner pour accéder aux contenus et aux enregistrements des sites. « En plus de la rotation des adresses IP, nous avons observé des requêtes provenant de différents numéros de système autonome pour contourner les blocages des sites. Cette activité a été observée sur des dizaines de milliers de domaines et des millions de requêtes par jour », a écrit Cloudflare.
Le résultat ? Cloudflare a rapporté avoir observé que « Perplexity avait accédé non seulement à ce type de contenu, mais était également capable de fournir des réponses détaillées à ce sujet lorsque les utilisateurs lui posaient des questions ». Ces observations confirment les plaintes des clients de Cloudflare. Le fournisseur de services dinfrastructure Web a annoncé qu'il travaille sur un système capable de bloquer le comportement de Perplexity.
Bien que Perplexity effectue initialement le crawling à partir de son agent utilisateur officiel, lorsqu'il se heurte à un blocage réseau, il semble dissimuler son identité de crawling pour contourner les préférences du site. Selon les administrateurs et éditeurs de sites Web, le comportement de Perplexity représente une menace existentielle pour leur modèle économique. Perplexity affirme toutefois que Cloudflare se trompe complètement sur ses crawlers.
Perplexity remet en cause la sécurité de l'infrastructure de Cloudflare
L'Internet tel que nous le connaissons depuis trois décennies évolue rapidement, mais une chose reste constante : il repose sur la confiance. Il existe des préférences claires selon lesquelles les robots d'exploration doivent être transparents, servir un objectif clair, effectuer une activité spécifique et, surtout, respecter les directives et les préférences des sites. Ainsi, Cloudflare a ajouté des heuristiques à ces règles gérées afin de bloquer Perplexity.
Toutefois, Perplexity affirme que Cloudflare se trompe. « Cette controverse révèle que les systèmes de Cloudflare sont fondamentalement inadéquats pour faire la distinction entre les assistants d'IA légitimes et les menaces réelles. Si vous ne pouvez pas distinguer un assistant numérique utile d'un scraper malveillant, vous ne devriez probablement pas prendre de décisions sur ce qui constitue un trafic Web légitime », a-t-il écrit dans un billet de blogue.
Le billet de blogue de Perplexity poursuit : « les erreurs techniques dans lanalyse de Cloudflare ne sont pas seulement embarrassantes ; elles sont disqualifiantes. Lorsque vous attribuez à tort des millions de requêtes, publiez des schémas techniques complètement inexacts et démontrez une incompréhension fondamentale du fonctionnement des assistants dIA modernes, vous perdez toute prétention à une quelconque expertise dans ce domaine ».
Envoyé par Perplexity
En substance, Perplexity semble affirmer que les restrictions du fichier robots.txt ne s'appliquent qu'à l'entraînement de grands modèles de langage, qu'il s'agisse de créer des classements de pages pour la recherche ou d'accumuler des données pour l'entraînement de modèles. Ainsi, si les informations sont utilisées immédiatement, cela ne compte pas comme de l'entraînement, et les restrictions du fichier robots.txt ne s'appliquent donc pas.
Comment Cloudflare compte bloquer le crawling furtif de Perplexity
À l'avenir, Cloudflare affirme que son système de gestion des bots sera capable de détecter et de bloquer l'agent utilisateur caché de Perplexity. Tout client utilisant un système de gestion des bots et disposant déjà d'une règle de blocage est déjà protégé. Si vous souhaitez autoriser ce trafic au motif qu'il pourrait provenir d'utilisateurs réels, vous pouvez configurer des règles pour contester les requêtes. Cela permet aux utilisateurs réels de continuer.
Cloudflare a ajouté des correspondances de signatures pour le crawler furtif à sa règle gérée, qui bloque l'activité de crawling de l'IA. Cette règle est disponible pour tous les clients Cloudflare, y compris les utilisateurs gratuits. Selon Cloudflare, OpenAI respecte les restrictions du fichier robots.txt et n'essaie pas de s'introduire dans les sites Web. Il a commencé à offrir à ses clients la possibilité de bloquer automatiquement tous les robots d'indexation IA.
Pour compléter cette mesure visant à bloquer les robots d'indexation des moteurs de réponses basés sur l'IA, Cloudflare a également lancé son programme « Pay Per Crawl », qui permet aux éditeurs de fixer des tarifs pour les entreprises d'IA qui souhaitent extraire leur contenu. Cela fait suite à plusieurs accords dans lesquels des éditeurs autorisent des entreprises d'IA à utiliser légalement leur contenu pour entraîner leurs grands modèles de langage.
Citons par exemple The New York Times avec Amazon, The Washington Post avec OpenAI et Perplexity avec Gannett Publishing. Dans le même temps, Perplexity semble continuer à enfreindre les règles dans sa quête de contenu. Perplexity rejette toutefois les conclusions des enquêtes qui l'incriminent.
Conclusion
Cloudflare accuse Perplexity dutiliser des robots furtifs pour contourner les directives des fichiers robots.txt et accéder à des contenus Web restreints. Ce comportement enfreint les règles que de nombreux sites Web mettent en place pour limiter lexploitation automatisée de leurs données. Toutefois, Perplexity rejette fermement les accusations de Cloudflare. La société parle « derreurs embarrassantes » et dénonce une analyse techniquement incompétente.
L'enquête de Cloudflare remet en cause l'activité même de Perplexity. Pour être plus claire, l'enquête de Cloudflare rapporte que l'IA de Perplexity est capable de répondre à des questions sur le contenu de pages auxquelles Perplexity n'a pas accès. Comment Perplexity explique-t-il exactement ce phénomène ?
Au-delà de cette querelle, laffaire illustre la tension croissante entre les fournisseurs de contenu en ligne et les acteurs de lIA générative. Elle soulève la question de savoir dans quelle mesure les robots dIA doivent respecter les protocoles établis et comment vérifier quils le font réellement. Une action collective en matière de droits d'auteur vient d'être intentée contre Anthropic et selon les experts, cette dernière pourrait bien ruiner l'industrie de l'IA.
