Comment Cloudflare trouve les bots d'IA qui se font passer pour de vrais navigateurs web

Cloudflare, Inc. est une entreprise américaine qui fournit des services de réseau de diffusion de contenu, de cybersécurité dans le cloud, d'atténuation des DDoS, de service de nom de domaine et d'enregistrement de domaine accrédité par l'ICANN. Le siège de Cloudflare se trouve à San Francisco, en Californie. Selon The Hill, Cloudflare est utilisé par plus de 20 % des internautes pour ses services de sécurité web, en 2022.Pour aider à préserver un Internet sûr pour les créateurs de contenu, Cloudflare vient de lancer un tout nouveau "simple bouton" pour bloquer tous les bots d'IA. Ce bouton est disponible pour tous les clients de Cloudflare, y compris ceux qui bénéficient du niveau gratuit.Cette fonctionnalité utilise l'intelligence artificielle pour détecter les tentatives d'extraction automatique de contenu. Selon Cloudflare, son logiciel peut repérer les bots qui extraient du contenu pour des projets de formation LLM, même lorsqu'ils tentent d'éviter d'être détectés. « Malheureusement, nous avons observé des opérateurs de bots tenter d'apparaître comme s'ils étaient un véritable navigateur en utilisant un agent utilisateur usurpé », ont écrit les ingénieurs de Cloudflare dans un billet de blog. « Nous avons surveillé cette activité au fil du temps, et nous sommes fiers de dire que notre modèle mondial d'apprentissage automatique a toujours reconnu cette activité comme un bot. »L'un des crawlers que Cloudflare a réussi à détecter est un bot qui collecte du contenu pour Perplexity AI Inc, une startup de moteurs de recherche bien financée. Le mois dernier, il a été signalé que la manière dont le bot racle les sites web fait apparaître ses requêtes comme du trafic utilisateur régulier. En conséquence, les exploitants de sites web ont eu du mal à empêcher Perplexity AI d'utiliser leur contenu. Cloudflare attribue à chaque visite de site web que sa plateforme traite un score de 1 à 99. Plus le chiffre est bas, plus la probabilité que la demande ait été générée par un bot est élevée. Selon l'entreprise, les demandes formulées par le bot qui collecte du contenu pour Perplexity AI reçoivent systématiquement un score inférieur à 30.Cloudflare mettra à jour la fonctionnalité au fil du temps pour tenir compte des changements dans les empreintes techniques des bots de scraping IA et de l'émergence de nouveaux crawlers. Dans le cadre de cette initiative, l'entreprise déploie un outil qui permettra aux exploitants de sites web de signaler les nouveaux bots qu'ils pourraient rencontrer.La popularité de l'IA générative a fait monter en flèche la demande de contenu utilisé pour former des modèles ou exécuter des inférences, et, bien que certaines entreprises d'IA identifient clairement leurs bots de web scraping, toutes les entreprises d'IA ne font pas preuve de transparence. Google aurait payé 60 millions de dollars par an pour obtenir une licence sur le contenu généré par les utilisateurs de Reddit, OpenAI aurait utilisé sa voix pour son nouvel assistant personnel sans son consentement et, plus récemment, Perplexity a été accusée d'usurper l'identité de visiteurs légitimes afin de récupérer du contenu sur des sites web. La valeur du contenu original en vrac n'a jamais été aussi élevée.L'année dernière, Cloudflare a annoncé la possibilité pour les clients de bloquer facilement les bots d'IA qui se comportent bien. Ces bots respectent le fichier robots.txt et n'utilisent pas de contenu sans licence pour entraîner leurs modèles ou exécuter l'inférence pour les applications RAG à l'aide de données de sites web. Même si ces bots d'IA respectent les règles, les clients de Cloudflare ont choisi en grande majorité de les bloquer.« Cloudflare entend clairement que les clients ne veulent pas que des bots d'IA visitent leurs sites web, et surtout ceux qui le font de manière malhonnête. Pour les aider, nous avons ajouté un tout nouveau moyen de bloquer tous les bots d'IA en un seul clic. Cette fonction est disponible pour tous les clients, y compris ceux de la version gratuite. Pour l'activer, il suffit de se rendre dans la section Sécurité > Bots du tableau de bord de Cloudflare, et de cliquer sur la bascule intitulée AI Scrapers and Crawlers », indique Cloudflare dans son billet de blog.Cette fonctionnalité sera automatiquement mise à jour au fil du temps, au fur et à mesure que Cloudflare verra de nouvelles empreintes de bots délinquants identifiés comme raclant largement le web pour l'entraînement des modèles. Pour s'assurer d'avoir une compréhension complète de toutes les activités des crawlers d'IA, Cloudflare a enquêté sur le trafic à travers son réseau.Le graphique ci-dessous illustre les bots d'IA les plus populaires vus sur le réseau de Cloudflare en termes de volume de requêtes. Cloudflare a examiné les agents utilisateurs de crawlers d'IA courants et a agrégé le nombre de requêtes sur sa plateforme provenant de ces agents utilisateurs d'IA au cours de l'année dernière :En examinant le nombre de requêtes adressées aux sites de Cloudflare, Cloudflare a constaté que Bytespider, Amazonbot, ClaudeBot et GPTBot sont les quatre principaux crawlers d'IA. Exploité par ByteDance, la société chinoise propriétaire de TikTok, Bytespider serait utilisé pour recueillir des données d'entraînement pour ses grands modèles linguistiques (LLM), y compris ceux qui soutiennent son rival ChatGPT, Doubao. Amazonbot et ClaudeBot suivent Bytespider en termes de volume de requêtes. Amazonbot, qui serait utilisé pour indexer le contenu pour les questions-réponses d'Alexa, a envoyé le deuxième plus grand nombre de requêtes et ClaudeBot, utilisé pour former le chat bot Claude, a récemment augmenté son volume de requêtes.Parmi les principaux bots d'IA que Cloudflare a repérés, Bytespider arrive en tête non seulement en termes de nombre de requêtes, mais aussi à la fois pour l'étendue de son exploration des propriétés Internet et la fréquence à laquelle il est bloqué. Il est suivi de près par GPTBot, qui occupe la deuxième place en termes d'exploration et de blocage. GPTBot, géré par OpenAI, recueille des données d'entraînement pour ses LLM, qui sont à la base de produits basés sur l'IA tels que ChatGPT. Dans le tableau ci-dessous, " Share of websites accessed " fait référence à la proportion de sites web protégés par Cloudflare qui ont été accédés par le bot d'IA nommé.Bien que l'analyse de Cloudflare ait identifié les crawlers les plus populaires en termes de volume de requêtes et de nombre de propriétés Internet accédées, de nombreux clients ne sont probablement pas conscients des crawlers IA les plus populaires qui parcourent activement leurs sites. L'équipe Radar de Cloudflare a effectué une analyse des principales entrées robots.txt des 10 000 premiers domaines Internet afin d'identifier les robots d'IA les plus couramment utilisés, puis a examiné la fréquence à laquelle Cloudflare voit ces robots sur les sites qu'il protège.Dans le graphique ci-dessous, qui présente les crawlers interdits pour ces sites, nous voyons que les clients font le plus souvent référence à GPTBot, CCBot et Google dans les robots.txt, mais qu'ils n'interdisent pas spécifiquement les crawlers IA populaires comme Bytespider et ClaudeBot.Alors qu'Internet est désormais inondé de ces bots d'IA, Cloudflare était curieux de voir comment les exploitants de sites web ont déjà réagi. En juin, les bots d'IA ont accédé à environ 39 % du million de propriétés Internet les mieux classées utilisant Cloudflare, mais seulement 2,98 % de ces propriétés ont pris des mesures pour bloquer ou contester ces demandes. En outre, plus une propriété Internet est bien classée (plus populaire), plus elle est susceptible d'être ciblée par des bots d'IA et, corrélativement, plus elle est susceptible de bloquer ces demandes.Cloudflare a vu des opérateurs de sites web bloquer complètement l'accès à ces crawlers d'IA à l'aide de robots.txt. Toutefois, ces blocages dépendent du fait que l'opérateur du bot respecte le fichier robots.txt et adhère à la norme RFC9309 (en veillant à ce que les variations de l'utilisateur contre correspondent toutes au jeton de produit) pour identifier honnêtement qui ils sont lorsqu'ils visitent une propriété Internet, mais les agents utilisateurs sont triviaux à modifier pour les opérateurs de bot.Malheureusement, Cloudflare a observé des opérateurs de bots tenter d'apparaître comme s'ils étaient un vrai navigateur en utilisant un agent utilisateur usurpé. Cloudflare a surveillé cette activité au fil du temps, et annonce fièrement que son modèle mondial d'apprentissage automatique a toujours reconnu cette activité comme un bot, même lorsque les opérateurs mentent à propos de leur agent utilisateur.Prenons l'exemple d'un bot spécifique dont d'autres ont observé qu'il cachait son activité. Cloudflare a effectué une analyse pour voir comment ses modèles d'apprentissage automatique ont noté le trafic provenant de ce bot. Dans le diagramme ci-dessous, vous pouvez voir que tous les scores de bot sont fermement inférieurs à 30, ce qui indique que la notation pense que cette activité est susceptible de provenir d'un bot.Le diagramme reflète l'évaluation des demandes à l'aide du modèle le plus récent de Cloudflare, où les couleurs "chaudes" indiquent que plus de demandes entrent dans cette bande, et les couleurs "froides" indiquent que moins de demandes y sont incluses. On constate que la grande majorité des demandes se situent dans les deux bandes inférieures, ce qui montre que le modèle de Cloudflare a attribué au bot incriminé un score de 9 ou moins. Les modifications apportées à l'agent utilisateur n'ont aucun effet sur le score, car c'est la toute première chose attendue de la part des opérateurs de bot.Tout client disposant d'une règle WAF existante configurée pour mettre au défi les visiteurs ayant un score de bots inférieur à 30 a automatiquement bloqué l'ensemble de ce trafic de bot d'IA sans nouvelle action de sa part. Il en sera de même pour les futurs bots d'IA qui utilisent des techniques similaires pour dissimuler leur activité.Les signaux globaux de Cloudflare ont servi à calculer le Bot Score, qui, pour les bots d'IA comme celui ci-dessus, reflète le fait qu'ils sont identifiés et classés correctement en tant que "bot probable".« Lorsque les acteurs malveillants tentent de crawler des sites Web à l'échelle, ils utilisent généralement des outils et des frameworks que nous sommes en mesure d'identifier par empreinte digitale. Pour chaque empreinte que nous voyons, nous utilisons le réseau de Cloudflare, qui reçoit en moyenne plus de 57 millions de requêtes par seconde, afin de déterminer dans quelle mesure nous devons nous fier à cette empreinte. Pour alimenter nos modèles, nous calculons des agrégats globaux pour de nombreux signaux. Sur la base de ces signaux, nos modèles ont été en mesure de signaler de manière appropriée le trafic provenant de bots d'IA évasifs, comme l'exemple mentionné ci-dessus, en tant que bots. Ces données agrégées à l'échelle mondiale nous permettent de détecter immédiatement les nouveaux outils de scraping et leur comportement, sans qu'il soit nécessaire de relever manuellement l'empreinte du bot, ce qui garantit que les clients restent protégés contre les nouvelles vagues d'activités de bots.», déclarent les ingénieurs de Cloudflare.Si vous avez des informations sur un bot d'intelligence artificielle qui ne se comporte pas correctement, Cloudflare serait ravi d'enquêter. Vous disposez de deux options pour signaler les crawlers d'IA qui ne se comportent pas correctement :1. Les clients Enterprise Bot Management de Cloudflare peuvent soumettre un rapport Feedback Loop faux négatif via Bot Analytics en sélectionnant simplement le segment de trafic où ils ont remarqué un mauvais comportement :2. Cloudflare a également mis en place un outil de reporting où tout ses clients peuvent soumettre des rapports sur un bot d'IA scrappant votre site web sans autorisation.Avec la crainte que certaines entreprises d'IA déterminées à contourner les règles pour accéder au contenu s'adaptent de manière persistante pour échapper à la détection des bots. Cloudflare continuera à surveiller et à ajouter d'autres blocs de bots à sa règle AI Scrapers and Crawlers et à faire évoluer ses modèles d'apprentissage automatique pour aider à maintenir Internet comme un endroit où les créateurs de contenu peuvent prospérer et garder le plein contrôle sur les modèles sur lesquels leur contenu est utilisé pour former ou exécuter l'inférence.Quel est votre avis sur le sujet ?Trouvez-vous cette initiative de Cloudflare judicieuse et pertinente ?