IdentifiantMot de passe
Loading...
Mot de passe oublié ?Je m'inscris ! (gratuit)

Vous êtes nouveau sur Developpez.com ? Créez votre compte ou connectez-vous afin de pouvoir participer !

Vous devez avoir un compte Developpez.com et être connecté pour pouvoir participer aux discussions.

Vous n'avez pas encore de compte Developpez.com ? Créez-en un en quelques instants, c'est entièrement gratuit !

Si vous disposez déjà d'un compte et qu'il est bien activé, connectez-vous à l'aide du formulaire ci-dessous.

Identifiez-vous
Identifiant
Mot de passe
Mot de passe oublié ?
Créer un compte

L'inscription est gratuite et ne vous prendra que quelques instants !

Je m'inscris !

Cloudflare retourne l'IA contre elle-même en déployant un labyrinthe sans fin de faits non pertinents
Pour lutter contre le scraping non autorisé de données d'entraînement d'IA comme ChatGPT

Le , par Stéphane le calme

34PARTAGES

9  0 
Cloudflare retourne l'IA contre elle-même en déployant un labyrinthe sans fin de faits non pertinents,
pour lutter contre le scraping non autorisé de données d'entraînement d'IA comme ChatGPT

Le fournisseur d'infrastructure web Cloudflare a annoncé une nouvelle fonctionnalité appelée « AI Labyrinth » qui vise à lutter contre le scraping de données d'IA non autorisé en proposant aux robots un faux contenu généré par l'IA. L'outil tentera de contrecarrer les entreprises d'IA qui parcourent les sites web sans autorisation pour collecter des données d'entraînement pour les grands modèles de langage qui alimentent les assistants d'IA tels que ChatGPT.

Cloudflare, fondée en 2009, est probablement mieux connue comme une entreprise qui fournit des services d'infrastructure et de sécurité pour les sites web, en particulier la protection contre les attaques par déni de service distribué (DDoS) et d'autres trafics malveillants.

Au lieu de simplement bloquer les robots, le nouveau système de Cloudflare les attire dans un « labyrinthe » de pages réalistes mais non pertinentes, gaspillant ainsi les ressources informatiques du robot d'exploration. Cette approche constitue un changement notable par rapport à la stratégie standard de blocage et de défense utilisée par la plupart des services de protection des sites web. Cloudflare explique que le blocage des robots se retourne parfois contre eux, car il avertit les opérateurs du robot qu'ils ont été détectés.

« Lorsque nous détectons une exploration non autorisée, au lieu de bloquer la demande, nous établissons un lien vers une série de pages générées par l'IA qui sont suffisamment convaincantes pour inciter un robot à les parcourir », écrit Cloudflare. « Mais bien qu'il ait l'air réel, ce contenu n'est pas réellement le contenu du site que nous protégeons, de sorte que le robot d'exploration perd du temps et des ressources ».

L'entreprise affirme que le contenu servi aux robots est délibérément sans rapport avec le site web exploré, mais qu'il est soigneusement sourcé ou généré à l'aide de faits scientifiques réels, tels que des informations neutres sur la biologie, la physique ou les mathématiques, afin d'éviter la diffusion de fausses informations (il n'est toutefois pas prouvé que cette approche empêche effectivement la diffusion de fausses informations). Cloudflare crée ce contenu à l'aide de son service Workers AI, une plateforme commerciale qui exécute des tâches d'intelligence artificielle.

Cloudflare a conçu les pages et les liens piégés de manière à ce qu'ils restent invisibles et inaccessibles aux visiteurs ordinaires, afin que les internautes ne tombent pas dessus par hasard.

Un pot de miel « de nouvelle génération »

AI Labyrinth fonctionne comme ce que Cloudflare appelle un « pot de miel de nouvelle génération ». Les pots de miel traditionnels sont des liens invisibles que les visiteurs humains ne peuvent pas voir, mais que les robots analysant le code HTML peuvent suivre. Mais Cloudflare explique que les robots modernes sont devenus habiles à repérer ces pièges simples, ce qui nécessite une tromperie plus sophistiquée. Les faux liens contiennent des métadirectives appropriées pour empêcher l'indexation par les moteurs de recherche tout en restant attrayants pour les robots pilleurs de données.

« Aucun être humain ne s'enfoncerait à quatre liens de profondeur dans un labyrinthe d'absurdités générées par l'IA », explique Cloudflare. « Tout visiteur qui le fait est très probablement un robot, ce qui nous donne un tout nouvel outil pour identifier les robots malveillants et en prendre les empreintes ».

Cette identification alimente une boucle de rétroaction d'apprentissage automatique - les données recueillies par AI Labyrinth sont utilisées pour améliorer en permanence la détection des bots sur le réseau de Cloudflare, améliorant ainsi la protection des clients au fil du temps. Les clients de n'importe quel plan Cloudflare (même le plan gratuit) peuvent activer la fonction en appuyant sur un simple bouton dans les paramètres de leur tableau de bord.


Utiliser l'IA générative comme arme défensive

Ci-dessous, un extrait du billet de présentation de Cloudflare :

Le contenu généré par l'IA a explosé, et aurait représenté quatre des 20 principaux messages sur Facebook l'automne dernier. En outre, Medium estime que 47 % de l'ensemble du contenu sur sa plateforme est généré par l'IA. Comme tout nouvel outil, l'IA a des utilisations merveilleuses et malveillantes.

Parallèlement, nous avons également assisté à une explosion des nouveaux crawlers utilisés par les entreprises d'IA pour récupérer des données en vue de l'entraînement des modèles. Les crawlers d'IA génèrent plus de 50 milliards de requêtes sur le réseau Cloudflare chaque jour, soit un peu moins de 1 % de toutes les requêtes web que nous voyons. Bien que Cloudflare dispose de plusieurs outils pour identifier et bloquer les robots d'IA non autorisés, nous avons constaté que le blocage des robots malveillants peut alerter l'attaquant que vous êtes sur eux, ce qui conduit à un changement d'approche et à une course à l'armement sans fin. Nous avons donc voulu créer un nouveau moyen de contrecarrer ces robots indésirables, sans leur faire savoir qu'ils ont été contrecarrés.

Pour ce faire, nous avons décidé d'utiliser un nouvel outil offensif dans la panoplie des créateurs de bots, que nous n'avons pas vraiment vu utilisé de manière défensive : le contenu généré par l'IA. Lorsque nous détectons une exploration non autorisée, au lieu de bloquer la requête, nous établissons un lien vers une série de pages générées par l'IA qui sont suffisamment convaincantes pour inciter un robot d'exploration à les parcourir. Bien qu'il ait l'air réel, ce contenu n'est pas celui du site que nous protégeons, ce qui fait perdre du temps et des ressources au robot d'exploration.

En outre, AI Labyrinth agit également comme un pot de miel de nouvelle génération. Aucun être humain n'irait chercher quatre liens dans un labyrinthe d'absurdités générées par l'IA. Tout visiteur qui le fait est très probablement un robot, ce qui nous donne un tout nouvel outil pour identifier et prendre les empreintes des mauvais robots, que nous ajoutons à notre liste de mauvais acteurs connus.

Comment nous avons construit le labyrinthe

Lorsque les robots d'indexation suivent ces liens, ils gaspillent de précieuses ressources informatiques en traitant des contenus non pertinents au lieu d'extraire les données légitimes de votre site web. Cela réduit considérablement leur capacité à recueillir suffisamment d'informations utiles pour former leurs modèles de manière efficace.

Pour générer un contenu humain convaincant, nous avons utilisé Workers AI avec un modèle open source pour créer des pages HTML uniques sur divers sujets. Plutôt que de créer ce contenu à la demande (ce qui pourrait avoir un impact sur les performances), nous avons mis en œuvre un pipeline de pré-génération qui assainit le contenu pour éviter toute vulnérabilité XSS, et le stocke dans R2 pour une récupération plus rapide. Nous avons constaté que le fait de générer d'abord un ensemble diversifié de sujets, puis de créer du contenu pour chaque sujet, produisait des résultats plus variés et plus convaincants. Il est important pour nous de ne pas générer de contenu inexact qui contribuerait à la diffusion de fausses informations sur Internet. Le contenu que nous générons est donc réel et lié à des faits scientifiques, mais il n'est pas pertinent ou propriétaire du site exploré.

Ce contenu pré-généré est intégré de manière transparente en tant que liens cachés sur des pages existantes via notre processus de transformation HTML personnalisé, sans perturber la structure ou le contenu d'origine de la page. Chaque page générée comprend des méta directives appropriées pour protéger le référencement en empêchant l'indexation par les moteurs de recherche. Nous avons également veillé à ce que ces liens restent invisibles pour les visiteurs humains grâce à des attributs et à un style soigneusement mis en œuvre. Pour minimiser encore l'impact sur les visiteurs réguliers, nous avons veillé à ce que ces liens ne soient présentés qu'aux personnes soupçonnées d'utiliser l'IA, tout en permettant aux utilisateurs légitimes et aux robots d'exploration vérifiés de naviguer normalement.


L'ampleur de l'exploration par l'IA sur le web semble considérable

Selon les données de Cloudflare, les robots d'indexation génèrent plus de 50 milliards de requêtes par jour sur son réseau, soit près de 1 % de l'ensemble du trafic web qu'elle traite. Nombre de ces robots collectent des données sur les sites web pour entraîner de grands modèles de langage sans l'autorisation des propriétaires des sites, une pratique qui a donné lieu à de nombreuses actions en justice de la part des créateurs de contenu et des éditeurs.

Cette technique représente une application défensive intéressante de l'IA, qui protège les propriétaires de sites web et les créateurs au lieu de menacer leur propriété intellectuelle. Toutefois, on ne sait pas très bien à quelle vitesse les robots d'indexation de l'IA pourraient s'adapter pour détecter et éviter de tels pièges, ce qui pourrait obliger Cloudflare à accroître la complexité de ses tactiques de tromperie. En outre, le gaspillage des ressources des entreprises d'IA pourrait ne pas plaire à ceux qui critiquent les coûts énergétiques et environnementaux perçus de l'exploitation des modèles d'IA.

Cloudflare décrit ce projet comme la « première itération » de l'utilisation défensive de l'IA contre les robots. Il est prévu de rendre le faux contenu plus difficile à détecter et d'intégrer les fausses pages de manière plus transparente dans les structures des sites web. Le jeu du chat et de la souris entre les sites web et les racleurs de données se poursuit, l'IA étant désormais utilisée des deux côtés de la bataille.


Ce n'est pas la première fois que Cloudflare s'attaque à cette problématique

Les propriétaires de sites n'ont pas la possibilité de déterminer comment les services d'IA utilisent leur contenu à des fins de formation ou autres. Aussi, en septembre, Cloudflare a lancé un ensemble d'outils pour permettre aux propriétaires de sites, aux créateurs et aux éditeurs de reprendre facilement le contrôle de la manière dont leur contenu est mis à la disposition des robots d'indexation liés à l'IA. Depuis, tous les clients de Cloudflare peuvent auditer et contrôler la manière dont les modèles d'IA accèdent au contenu de leur site.

Ce lancement commence par une vue analytique détaillée des services d'IA qui parcourent votre site et du contenu spécifique auquel ils accèdent. Les clients peuvent examiner l'activité par fournisseur d'IA, par type de bot, et quelles sections de leur site sont les plus populaires. Ces données sont disponibles pour chaque site sur Cloudflare et ne nécessitent aucune configuration.

Cloudflare dit s'attendre à ce que ce nouveau niveau de visibilité incite les équipes à prendre une décision concernant leur exposition aux robots d'indexation. Pour leur donner le temps de prendre cette décision, Cloudflare propose désormais une option en un clic dans son tableau de bord pour bloquer immédiatement l'accès de tout crawler d'IA à n'importe quel site. Les équipes peuvent ensuite utiliser cette « pause » pour décider si elles veulent autoriser des fournisseurs d'IA ou des types de robots spécifiques à continuer. Une fois cette décision prise, les administrateurs peuvent utiliser de nouveaux filtres dans le tableau de bord de Cloudflare pour appliquer ces politiques en quelques clics seulement.

Certains des clients de Cloudflare ont déjà décidé de négocier des contrats directement avec les entreprises d'IA. Bon nombre de ces contrats comprennent des clauses relatives à la fréquence d'analyse et au type de contenu auquel il est possible d'accéder

Source : Cloudflare

Et vous ?

Que pensez-vous de cette approche de Cloudflare ? Êtes-vous pour ou contre le concept de "punir" les entreprises d'IA en les submergeant de données inutiles ?

Dans quelle mesure les entreprises d'IA doivent-elles être responsables de la collecte et de l'utilisation des données web, notamment en ce qui concerne le respect du "no crawl" ?

L'initiative de Cloudflare remet-elle en question la capacité des entreprises d'IA à respecter les normes de confidentialité des données ?
Vous avez lu gratuitement 483 articles depuis plus d'un an.
Soutenez le club developpez.com en souscrivant un abonnement pour que nous puissions continuer à vous proposer des publications.

Une erreur dans cette actualité ? Signalez-nous-la !

Avatar de _toma_
Membre éclairé https://www.developpez.com
Le 24/03/2025 à 23:23
On l'avait tous anticipé. Ça y est, la boucle est (officiellement) bouclée.
1  0 
Avatar de smarties
Expert confirmé https://www.developpez.com
Le 25/03/2025 à 8:34
Pour lutter contre les robots, je pensais à la limite de requête par durée par IP mais ouvrir quelques pages cibles pour détecter un bot est une bonne idée.
1  0 
Avatar de chourmovs
Futur Membre du Club https://www.developpez.com
Le 27/03/2025 à 3:44
Les données intéressantes ont déjà été scrappées, les prochaines générées par IA de toutes façon... bizarre
0  0