Perplexity AI est une plateforme qui combine un moteur de recherche et un chatbot basé sur l'IA. La plateforme utilise des technologies avancées comme le traitement du langage naturel (NLP) et l'apprentissage automatique pour fournir des réponses précises et complètes aux requêtes des utilisateurs. Elle est conçue pour effectuer des recherches sur le Web en temps réel et offrir des informations actualisées sur divers sujets. Perplexity AI est doté d'une interface utilisateur intuitive pour aider les utilisateurs à trouver des informations sur un large éventail de sujets. Mais un développeur vient de faire une découverte à son sujet.
Rob Knight, un développeur qui tient un blogue sur la technologie, a récemment tenté d'empêcher Perplexity AI d'explorer les pages de son site Web. Pour cela, il a ajouté des instructions dans le fichier robots.txt de son blogue afin de bannir PerplexityBot, qui est censé être l'agent utilisateur de Perplexity AI. Pour vérifier si le blocage fonctionnait, Knight a collé l'URL de son article de blogue dans Perplexity AI et a demandé : "quel est cet article ?" Cependant, Perplexity AI a extrait de l'article de blogue des informations auxquelles il ne devrait pas avoir accès (il vient d'être banni) et a généré un résumé avec plusieurs détails.
Knight a pensé qu'il s'agissait peut-être simplement d'un dysfonctionnement du fichier robots.txt de son blogue. Il l'a donc testé à l'aide de nginx et a eu la confirmation que PerplexityBot devait être bloqué correctement. Une recherche plus approfondie a révélé que Perplexity AI utilisait un navigateur sans interface utilisateur (headless browser - navigateur sans tête) pour récupérer du contenu, sans tenir compte du fichier robots.txt. La chaîne de l'agent utilisateur renvoyée ne contenait pas la partie "PerplexityBot", de sorte que le fichier robots.txt n'a pas été en mesure de le bloquer. La configuration de Knight s'est avérée inutile.
Code PHP : | Sélectionner tout |
1 2 3 4 5 6 | $url = 'https://rknight.me'; $res = Http::withUserAgent('Mozilla/5.0 AppleWebKit/537.36 (KHTML, like Gecko; compatible; PerplexityBot/1.0; +https://perplexity.ai/perplexitybot)') ->get($url); echo $res->status() === 403; |
Knight a tenté de comprendre ce qui s'est passé en interrogeant le chatbot de Perplexity AI. Mais le chatbot s'est emmêlé les pinceaux dans ses explications, déclarant qu'il n'avait pas le droit d'explorer les contenus bloqués et qu'il n'aurait pas dû le faire. Voici un extrait de la conversation entre Knight et le chatbot :
Envoyé par conversation
Code : | Sélectionner tout |
Mozilla/5.0 (Windows NT 10.0) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/111.0.0.0 Safari/537.3
Le fichier robots.txt est utilisé par les sites Web pour contrôler l'exploration des robots. Les administrateurs peuvent bloquer les robots en incluant certains éléments dans le fichier robots.txt. Cependant, ces dernières années, des inquiétudes ont été soulevées quant à l'utilisation non autorisée d’informations publiées en ligne pour former l'IA générative. En août 2023, une méthode permettant de bloquer l'agent utilisateur "GPTBot" utilisé par OpenAI a été rendue publique, et Google a également annoncé une option permettant d'empêcher la collecte d'information sur les sites Web et leur utilisation pour la formation de l'IA.
Le rapport de Knight a suscité un grand débat sur la toile. Des critiques ont souligné que le fait de forcer les administrateurs à bloquer les moteurs de recherche des entreprises d'IA pourrait avoir un impact négatif sur les bloqueurs de publicité et d'autres logiciels utiles. En outre, d'autres affirment que l'exploration du Web par des moteurs de recherche basés sur l'IA, comme celui de Perplexity AI, réduit le nombre d'utilisateurs qui accèdent directement aux sites Web.
Envoyé par Rob Knight
« L'IA ne vaut que ce que valent ceux qui la supervisent. Je suis un adepte de l'IA et, entre de bonnes mains, la productivité, les progrès et la prospérité sont au rendez-vous. Mais entre les mains de personnes comme Aravind Srinivas, PDG de Perplexity AI, qui a la réputation d'être doué pour les techniques de doctorat et moins doué pour les aspects humains fondamentaux, l'amoralité pose un risque existentiel », a déclaré Lane.
Source : billet de blogue
Et vous ?
Quel est votre avis sur le sujet ?
Que pensez-vous de la façon dont Perplexity AI récupère les informations sur le Web ?
Comment les administrateurs de sites Web peuvent-ils faire face aux défis posés par l'IA ?
Perplexity AI viole-t-il les lois sur la protection des données, comme le RGPD de l'Union européenne ?
Voir aussi
La startup de recherche Perplexity AI a levé 73,6 millions de dollars auprès d'un groupe d'investisseurs comprenant Nvidia et le fondateur d'Amazon Jeff Bezos
La plateforme de recherche alimentée par l'IA Perplexity a levé 62,7 millions de dollars en capital-risque pour concurrencer ChatGPT d'OpenAI et double sa valorisation à 1 milliard de dollars
Apocalypse de l'IA ? ChatGPT, Claude et Perplexity reviennent en ligne après être tombés en panne en même temps, un avertissement pour les entreprises qui embrassent l'intelligence artificielle à tout va ?