
il est dissimulé et ignore le fichier robot.txt pour extraire des informations
Perplexity AI se livrerait à vol cynique de toute information publiée en ligne et les administrateurs de sites Web ne semblent avoir aucun moyen d'empêcher cela à l'heure actuelle. Un développeur a découvert que Perplexity AI ignore les instructions du fichier robots.txt, qui contrôle les robots d'indexation (crawlers), et accède aux sites Web pour extraire des informations, même lorsque les administrateurs interdisent l'accès à l'agent utilisateur de l'entreprise. Perplexity AI prétend que son agent utilisateur devrait apparaître sous le nom de "PerplexityBot", mais en réalité, il semble que le vrai agent utilisateur est dissimulé et parcourt les pages Web discrètement.
Perplexity AI est une plateforme qui combine un moteur de recherche et un chatbot basé sur l'IA. La plateforme utilise des technologies avancées comme le traitement du langage naturel (NLP) et l'apprentissage automatique pour fournir des réponses précises et complètes aux requêtes des utilisateurs. Elle est conçue pour effectuer des recherches sur le Web en temps réel et offrir des informations actualisées sur divers sujets. Perplexity AI est doté d'une interface utilisateur intuitive pour aider les utilisateurs à trouver des informations sur un large éventail de sujets. Mais un développeur vient de faire une découverte à son sujet.
Rob Knight, un développeur qui tient un blogue sur la technologie, a récemment tenté d'empêcher Perplexity AI d'explorer les pages de son site Web. Pour cela, il a ajouté des instructions dans le fichier robots.txt de son blogue afin de bannir PerplexityBot, qui est censé être l'agent utilisateur de Perplexity AI. Pour vérifier si le blocage fonctionnait, Knight a collé l'URL de son article de blogue dans Perplexity AI et a demandé : "quel est cet article ?" Cependant, Perplexity AI a extrait de l'article de blogue des informations auxquelles il ne devrait pas avoir accès (il vient d'être banni) et a généré un résumé avec plusieurs détails.
Knight a pensé qu'il s'agissait peut-être simplement d'un dysfonctionnement du fichier robots.txt de son blogue. Il l'a donc testé à l'aide de nginx et a eu la confirmation que PerplexityBot devait être bloqué correctement. Une recherche plus approfondie a révélé que Perplexity AI utilisait un navigateur sans interface utilisateur (headless browser - navigateur sans tête) pour récupérer du contenu, sans tenir compte du fichier robots.txt. La chaîne de l'agent utilisateur renvoyée ne contenait pas la partie "PerplexityBot", de sorte que le fichier robots.txt n'a pas été en mesure de le bloquer. La configuration de Knight s'est avérée inutile.
Code PHP : | Sélectionner tout |
1 2 3 4 5 6 | $url = 'https://rknight.me'; $res = Http::withUserAgent('Mozilla/5.0 AppleWebKit/537.36 (KHTML, like Gecko; compatible; PerplexityBot/1.0; +https://perplexity.ai/perplexitybot)') ->get($url); echo $res->status() === 403; |
Knight a tenté de comprendre ce qui s'est passé en interrogeant le chatbot de Perplexity AI. Mais le chatbot s'est emmêlé les pinceaux dans ses explications, déclarant qu'il n'avait pas le droit d'explorer les contenus bloqués et qu'il n'aurait pas dû le faire. Voici un extrait de la conversation entre Knight et le chatbot :

Code : | Sélectionner tout |
Mozilla/5.0 (Windows NT 10.0) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/111.0.0.0 Safari/537.3
Le fichier robots.txt est utilisé par les sites Web pour contrôler l'exploration des robots. Les administrateurs peuvent bloquer les robots en incluant certains éléments dans le fichier robots.txt. Cependant, ces dernières années, des inquiétudes ont été soulevées quant à l'utilisation non autorisée d’informations publiées en ligne pour former l'IA générative. En août 2023, une méthode permettant de bloquer l'agent utilisateur "GPTBot" utilisé par OpenAI a été rendue publique, et Google a également annoncé une option permettant d'empêcher la collecte d'information sur les sites Web et leur utilisation pour la formation de l'IA.
Le rapport de Knight a suscité un grand débat sur la toile. Des critiques ont souligné que le fait de forcer les administrateurs à bloquer les moteurs de recherche des entreprises d'IA pourrait avoir un impact négatif sur les bloqueurs de publicité et d'autres logiciels utiles. En outre, d'autres affirment que l'exploration du Web par des moteurs de recherche basés sur l'IA, comme celui de Perplexity AI, réduit le nombre d'utilisateurs qui accèdent directement aux sites Web.

« L'IA ne vaut que ce que valent ceux qui la supervisent. Je suis un adepte de l'IA et, entre de bonnes mains, la productivité, les progrès et la prospérité sont au rendez-vous. Mais entre les mains de personnes comme Aravind Srinivas, PDG de Perplexity AI, qui a la réputation d'être doué pour les techniques de doctorat et moins doué pour les aspects humains fondamentaux, l'amoralité pose un risque existentiel », a déclaré Lane.
Source : billet de blogue
Et vous ?




Voir aussi



Vous avez lu gratuitement 5 articles depuis plus d'un an.
Soutenez le club developpez.com en souscrivant un abonnement pour que nous puissions continuer à vous proposer des publications.
Soutenez le club developpez.com en souscrivant un abonnement pour que nous puissions continuer à vous proposer des publications.