
Depuis quelques mois, une inquiétude grandit dans l’écosystème numérique : les crawlers d’intelligence artificielle, ces robots automatisés qui explorent le web à la recherche de données, seraient en train de mettre à genoux des pans entiers d’Internet. Fastly estime aujourd’hui que près d’un tiers du trafic web mondial est généré par des bots, et que la majorité de ce trafic est désormais lié à des robots conçus pour nourrir les grands modèles de langage. Contrairement aux crawlers traditionnels comme Googlebot, qui obéissent encore globalement aux règles établies, les crawlers IA semblent fonctionner sans garde-fous, envoyant des vagues de requêtes massives et souvent impossibles à anticiper.
Pour les propriétaires de sites web, la différence est tangible. Là où un moteur de recherche apportait visibilité et visiteurs, les nouveaux robots d’IA n’apportent rien en retour. Ils extraient des contenus, les absorbent dans les pipelines d’entraînement, et repartent sans jamais générer la moindre visite humaine supplémentaire. Pire, leurs méthodes provoquent parfois des ralentissements, des interruptions de service et des factures d’hébergement qui explosent du jour au lendemain.
Des sites pris d’assaut par des requêtes incontrôlées
Les chiffres donnent le vertige. Certains sites modestes ont vu leurs serveurs crouler sous des dizaines de milliers de requêtes par minute, une charge comparable à une attaque par déni de service distribué. Wikimedia rapporte que, depuis 2024, plus d’un tiers de ses pages vues proviennent de bots, mais que ces mêmes bots génèrent près des deux tiers des requêtes les plus coûteuses en termes de ressources techniques. Ce déséquilibre pèse lourd sur les infrastructures et impose des investissements supplémentaires pour simplement maintenir le service accessible aux humains.

Une exploitation à sens unique
Ce qui distingue le plus ces crawlers IA de leurs prédécesseurs, c’est la nature profondément asymétrique de la relation qu’ils instaurent. Google ou Bing justifiaient leur exploration en apportant ensuite un flux d’utilisateurs vers les sites référencés. Les robots d’IA, eux, n’ont pas cette contrepartie. Ils capturent, digèrent et reformulent les contenus dans des réponses instantanées que l’utilisateur n’a plus besoin de vérifier à la source. Dans cet écosystème, le créateur du contenu devient un simple fournisseur anonyme de matière première, sans crédit, sans trafic et sans rémunération.
Pour beaucoup d’éditeurs, c’est un sentiment d’injustice qui domine. Ils investissent du temps, des ressources et de la créativité pour produire des informations, et voient ce travail absorbé sans la moindre rétribution. L’analogie souvent employée est celle d’une exploitation minière : les crawlers creusent, extraient et emportent les richesses, laissant derrière eux un terrain appauvri.
Meta et OpenAI, les pires contrevenants
La grande enseigne des services cloud Fastly a publié un rapport affirmant que les robots d'indexation IA imposent une charge importante au web ouvert, en récupérant des sites à un rythme qui représente 80 % de tout le trafic des robots IA, les 20 % restants étant utilisés par les récupérateurs IA (AI fetchers). Les robots et les récupérateurs peuvent fortement affecter les sites web, en exigeant des données d'un seul site à raison de milliers de requêtes par minute.
Selon le rapport, la division IA de Meta, propriétaire de Facebook, représente plus de la moitié de ces robots d'indexation, tandis qu'OpenAI représente la grande majorité des requêtes de récupération à la demande.
« Les robots IA sont en train de transformer la manière dont nous accédons à Internet et l'utilisons, introduisant ainsi de nouvelles complexités pour les plateformes numériques », a déclaré Arun Kumar, chercheur senior en sécurité chez Fastly, dans un communiqué publié à l'occasion de la publication du rapport. « Qu'ils soient utilisés pour collecter des données d'entraînement ou pour fournir des réponses en temps réel, ces robots créent de nouveaux défis en matière de visibilité, de contrôle et de coût. On ne peut pas sécuriser ce qu'on ne voit pas, et sans normes de vérification claires, les risques liés à l'automatisation basée sur l'IA deviennent un angle mort pour les équipes numériques. »
Le rapport de l'entreprise s'appuie sur l'analyse du pare-feu d'application web de nouvelle génération (NGWAF) et des services de gestion des bots de Fastly, qui, selon l'entreprise, « protègent plus de 130 000 applications et API et inspectent plus de 6 500 milliards de requêtes par mois », ce qui lui fournit une multitude de données à exploiter. Les données révèlent un problème croissant : l'augmentation de la charge des sites web ne provient pas des visiteurs humains, mais des robots d'indexation et de récupération automatisés qui travaillent pour le compte des entreprises de chatbots.
Le rapport avertit : « Certains robots IA, s'ils ne sont pas conçus avec soin, peuvent involontairement imposer une charge insoutenable aux serveurs web », prévient le rapport de Fastly, « entraînant une dégradation des performances, une interruption du service et une augmentation des coûts opérationnels ». Kumar a ajouté : « Il est clair que cette croissance n'est pas durable, car elle crée des défis opérationnels tout en sapant le modèle économique des créateurs de contenu. En tant qu'industrie, nous devons faire davantage pour établir des normes et des standards responsables en matière de crawling, qui permettent aux entreprises d'IA d'obtenir les données dont elles ont besoin tout en respectant les directives relatives au contenu des sites web. »
Cette augmentation du trafic provient uniquement de quelques entreprises sélectionnées. Meta représentait à elle seule plus de la moitié du trafic des crawlers IA, avec 52 %, suivie par Google et OpenAI avec respectivement 23 % et 20 %. Ce trio contrôle donc 95 % de l'ensemble du trafic des robots d'indexation IA. Anthropic, en revanche, ne représentait que 3,76 % du trafic des robots d'indexation. Le projet Common Crawl, qui récupère des sites web pour les inclure dans un ensemble de données publiques gratuites conçu pour éviter la duplication des efforts et la multiplication du trafic au cœur du problème des robots d'indexation, représentait un pourcentage étonnamment faible de 0,21 %.
La situation est différente en ce qui concerne les récupérateurs d'IA qui, contrairement aux robots d'indexation, sont lancés à la demande lorsqu'un utilisateur demande à un modèle d'intégrer des informations plus récentes que sa date limite de formation. Ici, OpenAI était de loin la source de trafic dominante, selon Fastly, représentant près de 98 % de toutes les demandes. Cela montre peut-être à quel point l'entrée précoce d'OpenAI sur le marché des chatbots IA destinés aux consommateurs avec ChatGPT a donné une longueur d'avance à l'entreprise, ou simplement que l'infrastructure des bots de l'entreprise a besoin d'être optimisée.
Bien que les récupérateurs d'IA ne représentent qu'une minorité des demandes de bots IA (environ 20 % seulement, selon Kumar), ils peuvent être à l'origine d'énormes pics de trafic, un seul récupérateur générant plus de 39 000 demandes par minute pendant la période de test. « Nous prévoyons une augmentation du trafic des récupérateurs à mesure que les outils d'IA se généralisent et que de plus en plus d'outils agentifs sont utilisés pour faciliter l'interaction entre les personnes et les sites web », a déclaré Kumar.
Les premières contre-offensives techniques
Face à cette situation, les réponses se multiplient. Certains éditeurs tentent de renforcer les barrières techniques, en s’appuyant sur des outils de filtrage ou de détection des comportements anormaux. D’autres misent sur des solutions plus radicales, comme des systèmes de « proof-of-work » qui exigent du crawler un effort computationnel avant de délivrer une page. Mais l’efficacité reste relative : les crawlers d’IA ignorent de plus en plus souvent les consignes de robots.txt, et certains vont jusqu’à exploiter ces fichiers comme des cartes indiquant où se trouvent les contenus les plus précieux.
Des acteurs comme Cloudflare expérimentent de nouvelles stratégies en proposant des « [URL="https:/...
La fin de cet article est réservée aux abonnés. Soutenez le Club Developpez.com en prenant un abonnement pour que nous puissions continuer à vous proposer des publications.