Le web a toujours été un écosystème en évolution constante. Cependant, un nouveau type de trafic automatisé, les robots d'exploration web basés sur l'IA, suscite une inquiétude croissante. Alors que les robots des moteurs de recherche traditionnels (comme Googlebot) opéraient dans une relation symbiotique en échangeant l'indexation contre une augmentation du trafic, leurs homologues de l'IA semblent ne poursuivre qu'un seul objectif : le pillage.Depuis quelques mois, une inquiétude grandit dans l’écosystème numérique : les crawlers d’intelligence artificielle, ces robots automatisés qui explorent le web à la recherche de données, seraient en train de mettre à genoux des pans entiers d’Internet. Fastly estime aujourd’hui que près d’un tiers du trafic web mondial est généré par des bots, et que la majorité de ce trafic est désormais lié à des robots conçus pour nourrir les grands modèles de langage. Contrairement aux crawlers traditionnels comme Googlebot, qui obéissent encore globalement aux règles établies, les crawlers IA semblent fonctionner sans garde-fous, envoyant des vagues de requêtes massives et souvent impossibles à anticiper.
Pour les propriétaires de sites web, la différence est tangible. Là où un moteur de recherche apportait visibilité et visiteurs, les nouveaux robots d’IA n’apportent rien en retour. Ils extraient des contenus, les absorbent dans les pipelines d’entraînement, et repartent sans jamais générer la moindre visite humaine supplémentaire. Pire, leurs méthodes provoquent parfois des ralentissements, des interruptions de service et des factures d’hébergement qui explosent du jour au lendemain.
Des sites pris d’assaut par des requêtes incontrôlées
Les chiffres donnent le vertige. Certains sites modestes ont vu leurs serveurs crouler sous des dizaines de milliers de requêtes par minute, une charge comparable à une attaque par déni de service distribué. Wikimedia rapporte que, depuis 2024, plus d’un tiers de ses pages vues proviennent de bots, mais que ces mêmes bots génèrent près des deux tiers des requêtes les plus coûteuses en termes de ressources techniques. Ce déséquilibre pèse lourd sur les infrastructures et impose des investissements supplémentaires pour simplement maintenir le service accessible aux humains.
Une exploitation à sens unique
Ce qui distingue le plus ces crawlers IA de leurs prédécesseurs, c’est la nature profondément asymétrique de la relation qu’ils instaurent. Google ou Bing justifiaient leur exploration en apportant ensuite un flux d’utilisateurs vers les sites référencés. Les robots d’IA, eux, n’ont pas cette contrepartie. Ils capturent, digèrent et reformulent les contenus dans des réponses instantanées que l’utilisateur n’a plus besoin de vérifier à la source. Dans cet écosystème, le créateur du contenu devient un simple fournisseur anonyme de matière première, sans crédit, sans trafic et sans rémunération.
Pour beaucoup d’éditeurs, c’est un sentiment d’injustice qui domine. Ils investissent du temps, des ressources et de la créativité pour produire des informations, et voient ce travail absorbé sans la moindre rétribution. L’analogie souvent employée est celle d’une exploitation minière : les crawlers creusent, extraient et emportent les richesses, laissant derrière eux un terrain appauvri.
Meta et OpenAI, les pires contrevenants
La grande enseigne des services cloud Fastly a publié un rapport affirmant que les robots d'indexation IA imposent une charge importante au web ouvert, en récupérant des sites à un rythme qui représente 80 % de tout le trafic des robots IA, les 20 % restants étant utilisés par les récupérateurs IA (AI fetchers). Les robots et les récupérateurs peuvent fortement affecter les sites web, en exigeant des données d'un seul site à raison de milliers de requêtes par minute.
Selon le rapport, la division IA de Meta, propriétaire de Facebook, représente plus de la moitié de ces robots d'indexation, tandis qu'OpenAI représente la grande majorité des requêtes de récupération à la demande.
« Les robots IA sont en train de...
La fin de cet article est réservée aux abonnés. Soutenez le Club Developpez.com en prenant un abonnement pour que nous puissions continuer à vous proposer des publications.