Le fournisseur d'infrastructure web Cloudflare a annoncé une nouvelle fonctionnalité appelée « AI Labyrinth » qui vise à lutter contre le scraping de données d'IA non autorisé en proposant aux robots un faux contenu généré par l'IA. L'outil tentera de contrecarrer les entreprises d'IA qui parcourent les sites web sans autorisation pour collecter des données d'entraînement pour les grands modèles de langage qui alimentent les assistants d'IA tels que ChatGPT.Cloudflare, fondée en 2009, est probablement mieux connue comme une entreprise qui fournit des services d'infrastructure et de sécurité pour les sites web, en particulier la protection contre les attaques par déni de service distribué (DDoS) et d'autres trafics malveillants.
Au lieu de simplement bloquer les robots, le nouveau système de Cloudflare les attire dans un « labyrinthe » de pages réalistes mais non pertinentes, gaspillant ainsi les ressources informatiques du robot d'exploration. Cette approche constitue un changement notable par rapport à la stratégie standard de blocage et de défense utilisée par la plupart des services de protection des sites web. Cloudflare explique que le blocage des robots se retourne parfois contre eux, car il avertit les opérateurs du robot qu'ils ont été détectés.
« Lorsque nous détectons une exploration non autorisée, au lieu de bloquer la demande, nous établissons un lien vers une série de pages générées par l'IA qui sont suffisamment convaincantes pour inciter un robot à les parcourir », écrit Cloudflare. « Mais bien qu'il ait l'air réel, ce contenu n'est pas réellement le contenu du site que nous protégeons, de sorte que le robot d'exploration perd du temps et des ressources ».
L'entreprise affirme que le contenu servi aux robots est délibérément sans rapport avec le site web exploré, mais qu'il est soigneusement sourcé ou généré à l'aide de faits scientifiques réels, tels que des informations neutres sur la biologie, la physique ou les mathématiques, afin d'éviter la diffusion de fausses informations (il n'est toutefois pas prouvé que cette approche empêche effectivement la diffusion de fausses informations). Cloudflare crée ce contenu à l'aide de son service Workers AI, une plateforme commerciale qui exécute des tâches d'intelligence artificielle.
Cloudflare a conçu les pages et les liens piégés de manière à ce qu'ils restent invisibles et inaccessibles aux visiteurs ordinaires, afin que les internautes ne tombent pas dessus par hasard.
Un pot de miel « de nouvelle génération »
AI Labyrinth fonctionne comme ce que Cloudflare appelle un « pot de miel de nouvelle génération ». Les pots de miel traditionnels sont des liens invisibles que les visiteurs humains ne peuvent pas voir, mais que les robots analysant le code HTML peuvent suivre. Mais Cloudflare explique que les robots modernes sont devenus habiles à repérer ces pièges simples, ce qui nécessite une tromperie plus sophistiquée. Les faux liens contiennent des métadirectives appropriées pour empêcher l'indexation par les moteurs de recherche tout en restant attrayants pour les robots pilleurs de données.
« Aucun être humain ne s'enfoncerait à quatre liens de profondeur dans un labyrinthe d'absurdités générées par l'IA », explique Cloudflare. « Tout visiteur qui le fait est très probablement un robot, ce qui nous donne un tout nouvel outil pour identifier les robots malveillants et en prendre les empreintes ».
Cette identification alimente une boucle de rétroaction d'apprentissage automatique - les données recueillies par AI Labyrinth sont utilisées pour améliorer en permanence la détection des bots sur le réseau de Cloudflare, améliorant ainsi la protection des clients au fil du temps. Les clients de n'importe quel plan Cloudflare (même le plan gratuit) peuvent activer la fonction en appuyant sur un simple bouton dans les paramètres de leur tableau de bord.
Utiliser l'IA générative comme arme défensive
Ci-dessous, un extrait du billet de présentation de Cloudflare :
Le contenu généré par l'IA a explosé, et aurait représenté quatre des 20 principaux messages sur Facebook l'automne dernier. En outre, Medium estime que 47 % de l'ensemble du contenu sur sa plateforme est généré par l'IA. Comme tout nouvel outil, l'IA a des utilisations merveilleuses et malveillantes.
Parallèlement, nous avons également assisté à une explosion des nouveaux crawlers utilisés par les entreprises d'IA pour récupérer des données en vue de l'entraînement des modèles. Les crawlers d'IA génèrent plus de 50 milliards de requêtes sur le réseau Cloudflare chaque jour, soit un peu moins de 1 % de toutes les requêtes web que nous voyons. Bien que Cloudflare dispose de plusieurs outils pour identifier et bloquer les robots d'IA non autorisés, nous avons constaté que le blocage des robots malveillants peut alerter l'attaquant que vous êtes sur eux, ce qui conduit à un changement d'approche et à une course à l'armement sans fin. Nous avons donc voulu créer un nouveau moyen de contrecarrer ces robots...
La fin de cet article est réservée aux abonnés. Soutenez le Club Developpez.com en prenant un abonnement pour que nous puissions continuer à vous proposer des publications.