IdentifiantMot de passe
Loading...
Mot de passe oublié ?Je m'inscris ! (gratuit)

Vous êtes nouveau sur Developpez.com ? Créez votre compte ou connectez-vous afin de pouvoir participer !

Vous devez avoir un compte Developpez.com et être connecté pour pouvoir participer aux discussions.

Vous n'avez pas encore de compte Developpez.com ? Créez-en un en quelques instants, c'est entièrement gratuit !

Si vous disposez déjà d'un compte et qu'il est bien activé, connectez-vous à l'aide du formulaire ci-dessous.

Identifiez-vous
Identifiant
Mot de passe
Mot de passe oublié ?
Créer un compte

L'inscription est gratuite et ne vous prendra que quelques instants !

Je m'inscris !

Perplexity affirme que les accusations de Cloudflare concernant le scraping furtif par l'IA reposent sur des erreurs embarrassantes,
Ajoutant que le blocage de Cloudflare menace l'accessibilité du Web ouvert

Le , par Mathis Lucas

28PARTAGES

3  0 
Perplexity affirme que les accusations de Cloudflare concernant le scraping furtif par l'IA reposent sur des erreurs embarrassantes
ajoutant que le blocage de Cloudflare menace l’accessibilité du Web ouvert

Une récente enquête de Cloudflare a conclu que Perplexity utilise des robots d'indexation furtifs et non déclarés pour contourner les directives interdisant l'exploration des sites Web. Perplexity parvient ainsi à accéder à des contenus Web pourtant explicitement bloqués afin d'alimenter son monteur de réponses. Ce comportement enfreint les règles que de nombreux sites Web mettent en place pour limiter l’exploitation abusive et automatisée de leurs données. Mais Perplexity rejette les conclusions de l'enquête de Cloudflare. La startup d'IA affirme que les allégations Cloudflare concernant le scraping furtif reposent sur des erreurs embarrassantes.

Perplexity AI est une plateforme qui combine un moteur de recherche et un chatbot basé sur l'IA. La plateforme utilise des technologies avancées comme le traitement du langage naturel (NLP) et l'apprentissage automatique pour fournir des réponses précises et complètes aux requêtes des utilisateurs. Elle est conçue pour effectuer des recherches sur le Web en temps réel et offrir des informations actualisées sur divers sujets, au lieu d'une liste de liens.

Perplexity AI est doté d'une interface utilisateur intuitive pour aider les utilisateurs à trouver des informations sur un large éventail de sujets. Mais Perplexity fait l'objet de plusieurs critiques depuis l'année dernière, de nombreux experts ayant signalé un scraping abusif de la part de l'entreprise.

En juin 2024, le développeur Rob Knight a révélé que Perplexity ignore les instructions du fichier robots.txt et accède aux sites Web pour extraire le contenu, même lorsque les administrateurs interdisent l'accès à l'agent utilisateur de l'entreprise. Perplexity prétend que son agent utilisateur devrait apparaître sous le nom de « PerplexityBot », mais en réalité, il semble que le vrai agent utilisateur est dissimulé et parcourt les pages Web en toute discrétion.

Ces accusations se sont multipliées tout le long de la seconde moitié de l'année dernière. Forbes a accusé Perplexity d'avoir ignoré les règles des fichiers robots.txt de ses sites Web pour collecter le contenu de ses articles. Wired a également publié un rapport qui tire des conclusions similaires. De récentes accusations indiquent que Perplexity déguise ses robots d'indexation en navigateurs Chrome classiques afin de contourner le blocage des sites.

Perplexity s'appuie sur des crawlers furtifs pour accéder aux sites Web

Une récente enquête de Cloudflare a abouti à des conclusions similaires. Cloudflare a commencé son enquête après que ses clients se sont plaints du comportement de Perplexity. Ces clients ont rapporté avoir interdit à la fois « l'activité de crawling de Perplexity dans leurs fichiers de règle robots.txt et créé des règles WAF [Web Application Firewall] pour bloquer spécifiquement les deux crawlers déclarés par Perplexity : PerplexityBot et Perplexity-User ».


Malgré ces dispositions, les clients de Cloudflare ont rapporté que leur contenu se retrouvait toujours dans Perplexity. Cloudflare a alors mis en place de nouveaux domaines de test, interdisant explicitement tout accès automatisé dans ses fichiers robots.txt et via des règles WAF spécifiques qui bloquaient les crawlers reconnus de Perplexity. Cloudflare a constaté que Perplexity déploie des robots d'indexation non déclarés (furtifs) pour accéder aux sites.

Perplexity utilise des adresses IP ne figurant pas dans sa plage IP officielle et les fait tourner pour accéder aux contenus et aux enregistrements des sites. « En plus de la rotation des adresses IP, nous avons observé des requêtes provenant de différents numéros de système autonome pour contourner les blocages des sites. Cette activité a été observée sur des dizaines de milliers de domaines et des millions de requêtes par jour », a écrit Cloudflare.

Le résultat ? Cloudflare a rapporté avoir observé que « Perplexity avait accédé non seulement à ce type de contenu, mais était également capable de fournir des réponses détaillées à ce sujet lorsque les utilisateurs lui posaient des questions ». Ces observations confirment les plaintes des clients de Cloudflare. Le fournisseur de services d’infrastructure Web a annoncé qu'il travaille sur un système capable de bloquer le comportement de Perplexity.

Bien que Perplexity effectue initialement le crawling à partir de son agent utilisateur officiel, lorsqu'il se heurte à un blocage réseau, il semble dissimuler son identité de crawling pour contourner les préférences du site. Selon les administrateurs et éditeurs de sites Web, le comportement de Perplexity représente une menace existentielle pour leur modèle économique. Perplexity affirme toutefois que Cloudflare se trompe complètement sur ses crawlers.

Perplexity remet en cause la sécurité de l'infrastructure de Cloudflare

L'Internet tel que nous le connaissons depuis trois décennies évolue rapidement, mais une chose reste constante : il repose sur la confiance. Il existe des préférences claires selon lesquelles les robots d'exploration doivent être transparents, servir un objectif clair, effectuer une activité spécifique et, surtout, respecter les directives et les préférences des sites. Ainsi, Cloudflare a ajouté des heuristiques à ces règles gérées afin de bloquer Perplexity.


Toutefois, Perplexity affirme que Cloudflare se trompe. « Cette controverse révèle que les systèmes de Cloudflare sont fondamentalement inadéquats pour faire la distinction entre les assistants d'IA légitimes et les menaces réelles. Si vous ne pouvez pas distinguer un assistant numérique utile d'un scraper malveillant, vous ne devriez probablement pas prendre de décisions sur ce qui constitue un trafic Web légitime », a-t-il écrit dans un billet de blogue.

Le billet de blogue de Perplexity poursuit : « les erreurs techniques dans l’analyse de Cloudflare ne sont pas seulement embarrassantes ; elles sont disqualifiantes. Lorsque vous attribuez à tort des millions de requêtes, publiez des schémas techniques complètement inexacts et démontrez une incompréhension fondamentale du fonctionnement des assistants d’IA modernes, vous perdez toute prétention à une quelconque expertise dans ce domaine ».

Citation Envoyé par Perplexity


Ce blocage excessif nuit à tout le monde. Imaginez quelqu’un qui utilise l’IA pour rechercher des informations médicales, comparer des avis sur des produits ou accéder à l’actualité depuis plusieurs sources. Si son assistant est bloqué comme un bot malveillant, il perd l’accès à des informations précieuses.

Le résultat, c’est un Internet à deux vitesses, où l’accès ne dépend pas de vos besoins, mais du fait que vos outils préférés aient reçu ou non l’aval des contrôleurs d’infrastructure, qui se soucieront davantage de vos moyens. Cela porte atteinte au libre choix des utilisateurs et menace l’accessibilité du Web ouvert pour les services innovants en concurrence avec les géants déjà établis.

Dans la communauté, les critiques affirment que Perplexity tente de déplacer le sujet. Perplexity dénonce une prétendue menace pour l’accessibilité du Web, alors que la question porte sur le respect des règles établies dans les fichiers robots.txt. Il s'agit d'une pratique de longue date permettant aux sites Web de contrôler l'exploration de leur contenu. Cependant, Perplexity ignore ces restrictions et collecte les informations sur les sites Web.

En substance, Perplexity semble affirmer que les restrictions du fichier robots.txt ne s'appliquent qu'à l'entraînement de grands modèles de langage, qu'il s'agisse de créer des classements de pages pour la recherche ou d'accumuler des données pour l'entraînement de modèles. Ainsi, si les informations sont utilisées immédiatement, cela ne compte pas comme de l'entraînement, et les restrictions du fichier robots.txt ne s'appliquent donc pas.

Comment Cloudflare compte bloquer le crawling furtif de Perplexity

À l'avenir, Cloudflare affirme que son système de gestion des bots sera capable de détecter et de bloquer l'agent utilisateur caché de Perplexity. Tout client utilisant un système de gestion des bots et disposant déjà d'une règle de blocage est déjà protégé. Si vous souhaitez autoriser ce trafic au motif qu'il pourrait provenir d'utilisateurs réels, vous pouvez configurer des règles pour contester les requêtes. Cela permet aux utilisateurs réels de continuer.

Cloudflare a ajouté des correspondances de signatures pour le crawler furtif à sa règle gérée, qui bloque l'activité de crawling de l'IA. Cette règle est disponible pour tous les clients Cloudflare, y compris les utilisateurs gratuits. Selon Cloudflare, OpenAI respecte les restrictions du fichier robots.txt et n'essaie pas de s'introduire dans les sites Web. Il a commencé à offrir à ses clients la possibilité de bloquer automatiquement tous les robots d'indexation IA.

Pour compléter cette mesure visant à bloquer les robots d'indexation des moteurs de réponses basés sur l'IA, Cloudflare a également lancé son programme « Pay Per Crawl », qui permet aux éditeurs de fixer des tarifs pour les entreprises d'IA qui souhaitent extraire leur contenu. Cela fait suite à plusieurs accords dans lesquels des éditeurs autorisent des entreprises d'IA à utiliser légalement leur contenu pour entraîner leurs grands modèles de langage.

Citons par exemple The New York Times avec Amazon, The Washington Post avec OpenAI et Perplexity avec Gannett Publishing. Dans le même temps, Perplexity semble continuer à enfreindre les règles dans sa quête de contenu. Perplexity rejette toutefois les conclusions des enquêtes qui l'incriminent.

Conclusion

Cloudflare accuse Perplexity d’utiliser des robots furtifs pour contourner les directives des fichiers robots.txt et accéder à des contenus Web restreints. Ce comportement enfreint les règles que de nombreux sites Web mettent en place pour limiter l’exploitation automatisée de leurs données. Toutefois, Perplexity rejette fermement les accusations de Cloudflare. La société parle « d’erreurs embarrassantes » et dénonce une analyse techniquement incompétente.

L'enquête de Cloudflare remet en cause l'activité même de Perplexity. Pour être plus claire, l'enquête de Cloudflare rapporte que l'IA de Perplexity est capable de répondre à des questions sur le contenu de pages auxquelles Perplexity n'a pas accès. Comment Perplexity explique-t-il exactement ce phénomène ?

Au-delà de cette querelle, l’affaire illustre la tension croissante entre les fournisseurs de contenu en ligne et les acteurs de l’IA générative. Elle soulève la question de savoir dans quelle mesure les robots d’IA doivent respecter les protocoles établis et comment vérifier qu’ils le font réellement. Une action collective en matière de droits d'auteur vient d'être intentée contre Anthropic et selon les experts, cette dernière pourrait bien ruiner l'industrie de l'IA.

Sources : Perplexity AI, Cloudflare

Et vous ?

Quel est votre avis sur le sujet ?
Perplexity affirme que les conclusion de l'enquête de Cloudflare sont erronées. Qu'en pensez-vous ?
Perplexity estime que le blocage que de Cloudflare menace l'accessibilité du Web. Qu'en pensez-vous ?
Quels impacts le système de blocage mis en place par Cloudflare pourrait-il avoir sur Perplexity ?

Voir aussi

L'industrie de l'IA au bord du précipice ? La plus grande action collective en matière de droits d'auteur contre Anthropic pourrait ruiner l'industrie de l'IA, selon les associations professionnelles

La startup spécialisée dans l'IA Perplexity déploie des robots d'indexation non déclarés qui se font passer pour des navigateurs Chrome classiques afin de contourner le blocage des sites Web

Perplexity AI, un moteur de recherche basé sur l'IA, semble mentir sur l'agent utilisateur qu'il envoie explorer les sites Web, il est dissimulé et ignore le fichier robot.txt pour extraire des informations
Vous avez lu gratuitement 1 477 articles depuis plus d'un an.
Soutenez le club developpez.com en souscrivant un abonnement pour que nous puissions continuer à vous proposer des publications.

Une erreur dans cette actualité ? Signalez-nous-la !