Une étude révèle que le moteur de recherche basé sur l'IA Perplexity invente des informations à partir de rien et débite des "absurdités",

Il procède aussi subrepticement à l'extraction des données des sites

Le 24 juin 2024 à 22:52, par Mathis Lucas

183PARTAGES

Une nouvelle enquête confirme que Perplexity AI ignore le standard Web largement utilisé sur le Web depuis des décennies, appelé "Robots Exclusion Protocol" (protocole d'exclusion des robots - robots.txt), pour explorer subrepticement des zones de sites Web auxquels les opérateurs ne veulent pas que les robots d'indexation accèdent. Perplexity AI prétend que son robot d'indexation devrait apparaître sous le nom de "PerplexityBot", mais en réalité, il semble que le vrai agent utilisateur est dissimulé et parcourt les pages Web discrètement. En outre, l'analyse rapporte que le chatbot est également enclin à débiter des conneries, au sens technique du terme.

Perplexity AI est une plateforme qui combine un moteur de recherche et un chatbot basé sur l'IA. La plateforme utilise des technologies avancées comme le traitement du langage naturel (NLP) et l'apprentissage automatique pour fournir des réponses précises et complètes aux requêtes des utilisateurs. Elle est conçue pour effectuer des recherches sur le Web en en temps réel et offrir des informations actualisées sur divers sujets. Perplexity AI est doté d'une interface utilisateur intuitive pour aider les utilisateurs à trouver des informations sur un large éventail de sujets. Mais son fonctionnement suscite diverses préoccupations.

Rob Knight, un développeur qui tient un blogue sur la technologie, a récemment tenté d'empêcher Perplexity AI d'explorer les pages de son site Web. Pour cela, il a ajouté des instructions dans le fichier robots.txt de son blogue afin de bannir PerplexityBot, qui est censé être l'agent utilisateur de Perplexity AI. Pour vérifier si le blocage fonctionnait, Knight a collé l'URL de son article de blogue dans Perplexity AI et a demandé : "quel est cet article ?" Cependant, Perplexity AI a extrait de l'article de blogue des informations auxquelles il ne devrait pas avoir accès (il vient d'être banni) et a généré un résumé avec plusieurs détails.

Une enquête distincte de Wired a également observé le comportement louche de Perplexity AI. Elle confirme que Perplexity AI ignore le protocole d'exclusion des robots, plus connu sous le nom de robots.txt, afin de gratter subrepticement des zones de sites Web auxquelles les administrateurs ne veulent pas que les robots d'indexation accèdent, même si la société prétend que ce n'est pas le cas. L'analyse indique que Wired a observé une machine liée à Perplexity AI (une machine sur un serveur Amazon et presque certainement exploitée par Perplexity) faire cela sur son site wired.com et sur d'autres publications de Condé Nast.

En théorie, le chatbot de Perplexity AI ne devrait pas être en mesure de résumer les articles de Wired, car les ingénieurs du site ont bloqué son agent utilisateur via le fichier robots.txt depuis le début de l'année. Ce fichier indique aux robots d'indexation les parties du site qu'ils doivent éviter, et Perplexity AI affirme respecter la norme robots.txt. Mais l'analyse révèle que, dans la pratique, le fait de demander Perplexity AI le titre d'un article de Wired ou une question basée sur ce titre produit généralement un résumé qui semble récapituler l'article dans ses moindres détails. Un comportement décrié par Knight et Wired.

Le rapport de Knight, développeur de MacStories, et les vérifications de Wired suggèrent une explication pour une partie de ce qui se passe ici : "Perplexity AI récupère le contenu des sites Web sans autorisation". En creusant davantage, Knight s'est rendu compte que Perplexity utilise un navigateur sans interface utilisateur (headless browser - navigateur sans tête) pour récupérer du contenu, sans tenir compte du fichier robots.txt. La chaîne de l'agent utilisateur renvoyée ne contenait pas la partie "PerplexityBot", de sorte que le fichier robots.txt n'a pas été en mesure de le bloquer. La configuration de Knight s'est avérée inutile.

Pour comprendre ce qui s'est passé, Knight a interrogé le chatbot de Perplexity AI. Mais le chatbot s'est emmêlé les pinceaux dans ses explications, déclarant qu'il n'avait pas le droit d'explorer les...

La fin de cet article est réservée aux abonnés. Soutenez le Club Developpez.com en prenant un abonnement pour que nous puissions continuer à vous proposer des publications.

Une erreur dans cette actualité ? Signalez-nous-la !

Votre nom : Votre e-mail :

Décrivez l'erreur que vous souhaitez porter à notre connaissance :

Identifiez-vous

Créer un compte

Une étude révèle que le moteur de recherche basé sur l'IA Perplexity invente des informations à partir de rien et débite des "absurdités",

Il procède aussi subrepticement à l'extraction des données des sites

Identifiant
Mot de passe

Mot de passe oublié ?

Identifiez-vous

Créer un compte

Une étude révèle que le moteur de recherche basé sur l'IA Perplexity invente des informations à partir de rien et débite des "absurdités", Il procède aussi subrepticement à l'extraction des données des sites

Une étude révèle que le moteur de recherche basé sur l'IA Perplexity invente des informations à partir de rien et débite des "absurdités",

Il procède aussi subrepticement à l'extraction des données des sites