
Meta et OpenAI en sont les champions, selon un rapport de Fastly
Le web a toujours été un écosystème en évolution constante. Cependant, un nouveau type de trafic automatisé, les robots d'exploration web basés sur l'IA, suscite une inquiétude croissante. Alors que les robots des moteurs de recherche traditionnels (comme Googlebot) opéraient dans une relation symbiotique en échangeant l'indexation contre une augmentation du trafic, leurs homologues de l'IA semblent ne poursuivre qu'un seul objectif : le pillage.
Depuis quelques mois, une inquiétude grandit dans l’écosystème numérique : les crawlers d’intelligence artificielle, ces robots automatisés qui explorent le web à la recherche de données, seraient en train de mettre à genoux des pans entiers d’Internet. Fastly estime aujourd’hui que près d’un tiers du trafic web mondial est généré par des bots, et que la majorité de ce trafic est désormais lié à des robots conçus pour nourrir les grands modèles de langage. Contrairement aux crawlers traditionnels comme Googlebot, qui obéissent encore globalement aux règles établies, les crawlers IA semblent fonctionner sans garde-fous, envoyant des vagues de requêtes massives et souvent impossibles à anticiper.
Pour les propriétaires de sites web, la différence est tangible. Là où un moteur de recherche apportait visibilité et visiteurs, les nouveaux robots d’IA n’apportent rien en retour. Ils extraient des contenus, les absorbent dans les pipelines d’entraînement, et repartent sans jamais générer la moindre visite humaine supplémentaire. Pire, leurs méthodes provoquent parfois des ralentissements, des interruptions de service et des factures d’hébergement qui explosent du jour au lendemain.
Des sites pris d’assaut par des requêtes incontrôlées
Les chiffres donnent le vertige. Certains sites modestes ont vu leurs serveurs crouler sous des dizaines de milliers de requêtes par minute, une charge comparable à une attaque par déni de service distribué. Wikimedia rapporte que, depuis 2024, plus d’un tiers de ses pages vues proviennent de bots, mais que ces mêmes bots génèrent près des deux tiers des requêtes les plus coûteuses en termes de ressources techniques. Ce déséquilibre pèse lourd sur les infrastructures et impose des investissements supplémentaires pour simplement maintenir le service accessible aux humains.

Une exploitation à sens unique
Ce qui distingue le plus ces crawlers IA de leurs prédécesseurs, c’est la nature profondément asymétrique de la relation qu’ils instaurent. Google ou Bing justifiaient leur exploration en apportant ensuite un flux d’utilisateurs vers les sites référencés. Les robots d’IA, eux, n’ont pas cette contrepartie. Ils capturent, digèrent et reformulent les contenus dans des réponses instantanées que l’utilisateur n’a plus besoin de vérifier à la source. Dans cet écosystème, le créateur du contenu devient un simple fournisseur anonyme de matière première, sans crédit, sans trafic et sans rémunération.
Pour beaucoup d’éditeurs, c’est un sentiment d’injustice qui domine. Ils investissent du temps, des ressources et de la créativité pour produire des informations, et voient ce travail absorbé sans la moindre rétribution. L’analogie souvent employée est celle d’une exploitation minière : les crawlers creusent, extraient et emportent les richesses, laissant derrière eux un terrain appauvri.
Meta et OpenAI, les pires contrevenants
La grande enseigne des services cloud Fastly a publié un rapport affirmant que les robots d'indexation IA imposent une charge importante au web ouvert, en récupérant des sites à un rythme qui représente 80 % de tout le trafic des robots IA, les 20 % restants étant utilisés par les récupérateurs IA (AI fetchers). Les robots et les récupérateurs peuvent fortement affecter les sites web, en exigeant des données d'un seul site à raison de milliers de requêtes par minute.
Selon le rapport, la division IA de Meta, propriétaire de Facebook, représente plus de la moitié de ces robots d'indexation, tandis qu'OpenAI représente la grande majorité des requêtes de récupération à la demande.
« Les robots IA sont en train de transformer la manière dont nous accédons à Internet et l'utilisons, introduisant ainsi de nouvelles complexités pour les plateformes numériques », a déclaré Arun Kumar, chercheur senior en sécurité chez Fastly, dans un communiqué publié à l'occasion de la publication du rapport. « Qu'ils soient utilisés pour collecter des données d'entraînement ou pour fournir des réponses en temps réel, ces robots créent de nouveaux défis en matière de visibilité, de contrôle et de coût. On ne peut pas sécuriser ce qu'on ne voit pas, et sans normes de vérification claires, les risques liés à l'automatisation basée sur l'IA deviennent un angle mort pour les équipes numériques. »
Le rapport de l'entreprise s'appuie sur l'analyse du pare-feu d'application web de nouvelle génération (NGWAF) et des services de gestion des bots de Fastly, qui, selon l'entreprise, « protègent plus de 130 000 applications et API et inspectent plus de 6 500 milliards de requêtes par mois », ce qui lui fournit une multitude de données à exploiter. Les données révèlent un problème croissant : l'augmentation de la charge des sites web ne provient pas des visiteurs humains, mais des robots d'indexation et de récupération automatisés qui travaillent pour le compte des entreprises de chatbots.
Le rapport avertit : « Certains robots IA, s'ils ne sont pas conçus avec soin, peuvent involontairement imposer une charge insoutenable aux serveurs web », prévient le rapport de Fastly, « entraînant une dégradation des performances, une interruption du service et une augmentation des coûts opérationnels ». Kumar a ajouté : « Il est clair que cette croissance n'est pas durable, car elle crée des défis opérationnels tout en sapant le modèle économique des créateurs de contenu. En tant qu'industrie, nous devons faire davantage pour établir des normes et des standards responsables en matière de crawling, qui permettent aux entreprises d'IA d'obtenir les données dont elles ont besoin tout en respectant les directives relatives au contenu des sites web. »
Cette augmentation du trafic provient uniquement de quelques entreprises sélectionnées. Meta représentait à elle seule plus de la moitié du trafic des crawlers IA, avec 52 %, suivie par Google et OpenAI avec respectivement 23 % et 20 %. Ce trio contrôle donc 95 % de l'ensemble du trafic des robots d'indexation IA. Anthropic, en revanche, ne représentait que 3,76 % du trafic des robots d'indexation. Le projet Common Crawl, qui récupère des sites web pour les inclure dans un ensemble de données publiques gratuites conçu pour éviter la duplication des efforts et la multiplication du trafic au cœur du problème des robots d'indexation, représentait un pourcentage étonnamment faible de 0,21 %.
La situation est différente en ce qui concerne les récupérateurs d'IA qui, contrairement aux robots d'indexation, sont lancés à la demande lorsqu'un utilisateur demande à un modèle d'intégrer des informations plus récentes que sa date limite de formation. Ici, OpenAI était de loin la source de trafic dominante, selon Fastly, représentant près de 98 % de toutes les demandes. Cela montre peut-être à quel point l'entrée précoce d'OpenAI sur le marché des chatbots IA destinés aux consommateurs avec ChatGPT a donné une longueur d'avance à l'entreprise, ou simplement que l'infrastructure des bots de l'entreprise a besoin d'être optimisée.
Bien que les récupérateurs d'IA ne représentent qu'une minorité des demandes de bots IA (environ 20 % seulement, selon Kumar), ils peuvent être à l'origine d'énormes pics de trafic, un seul récupérateur générant plus de 39 000 demandes par minute pendant la période de test. « Nous prévoyons une augmentation du trafic des récupérateurs à mesure que les outils d'IA se généralisent et que de plus en plus d'outils agentifs sont utilisés pour faciliter l'interaction entre les personnes et les sites web », a déclaré Kumar.
Les premières contre-offensives techniques
Face à cette situation, les réponses se multiplient. Certains éditeurs tentent de renforcer les barrières techniques, en s’appuyant sur des outils de filtrage ou de détection des comportements anormaux. D’autres misent sur des solutions plus radicales, comme des systèmes de « proof-of-work » qui exigent du crawler un effort computationnel avant de délivrer une page. Mais l’efficacité reste relative : les crawlers d’IA ignorent de plus en plus souvent les consignes de robots.txt, et certains vont jusqu’à exploiter ces fichiers comme des cartes indiquant où se trouvent les contenus les plus précieux.
Des acteurs comme Cloudflare expérimentent de nouvelles stratégies en proposant des « AI paywalls », c’est-à-dire des barrières réservées aux robots d’IA, que l’on ne franchit qu’après autorisation ou contre rémunération. L’idée est d’inverser la logique : si les modèles ont besoin d’ingérer des contenus de qualité, alors ils doivent en payer l’accès. Reste que ce système est encore balbutiant, difficile à appliquer uniformément, et surtout vulnérable aux bots déguisés qui contournent les blocages.
Le champ de bataille juridique et économique
Au-delà des solutions techniques, le conflit se déplace aussi vers le terrain légal et économique. Plusieurs médias et plateformes négocient des accords de licence avec les géants de l’IA, espérant transformer ce pillage en partenariat rémunérateur. D’autres optent pour une voie plus offensive, en déposant des recours juridiques contre ce qu’ils considèrent comme une violation flagrante du droit d’auteur et une atteinte à leurs intérêts commerciaux. Reddit, Reuters, le New York Times et d’autres acteurs majeurs ont déjà ouvert la danse, cherchant à établir un précédent qui protégerait leurs contenus.
Cette confrontation est en réalité un bras de fer autour de la valeur des données. Les entreprises d’IA affirment avoir besoin d’énormes corpus pour améliorer leurs modèles, tandis que les éditeurs exigent reconnaissance et compensation. Entre les deux, c’est l’avenir même du web qui se joue : restera-t-il un espace où les créateurs trouvent un intérêt à publier, ou deviendra-t-il une simple base d’entraînement pour des intelligences artificielles qui concentrent toute l’attention des utilisateurs ?
Un futur incertain pour le web ouvert
Le débat dépasse la simple question technique. Ce qui est en jeu, c’est la viabilité du web tel que nous le connaissons. Si les crawlers d’IA continuent à siphonner les contenus sans rétribution, beaucoup de sites, en particulier les plus petits, n’auront plus les moyens de survivre. À terme, le risque est réel : voir disparaître une partie de la diversité et de la richesse qui font d’Internet un espace vivant.
Certains imaginent déjà un futur où la majorité des sites seront fermés par défaut aux crawlers IA, ne laissant passer que ceux qui respectent des conditions strictes ou qui paient pour l’accès. D’autres misent sur des régulations étatiques pour rétablir un équilibre entre producteurs et exploitants de données. Mais il reste une incertitude majeure : les géants de l’IA, qui disposent de moyens techniques et financiers colossaux, accepteront-ils de jouer ce jeu ou chercheront-ils à maintenir la logique d’extraction gratuite qui leur profite tant ?
Conclusion : survivre à l’ère des crawlers IA
Les crawlers d’intelligence artificielle ne détruisent pas volontairement le web, mais leur impact cumulé est destructeur. Ils fragilisent des infrastructures, asphyxient des modèles économiques et installent une dynamique où la valeur se concentre du côté des acteurs de l’IA, laissant les éditeurs exsangues. Le dilemme est clair : soit le web parvient à inventer de nouvelles règles de partage et de rétribution, soit il risque de s’effondrer sous le poids d’une exploitation unilatérale.
L’avenir d’Internet dépendra donc de la capacité collective à redéfinir les termes de cet échange. Car sans créateurs de contenus, il n’y aura plus rien à entraîner. Et si les crawlers continuent leur course effrénée, c’est peut-être le web lui-même qui finira vidé de sa substance.
Source : rapport de Fastly
Et vous ?







Vous avez lu gratuitement 4 575 articles depuis plus d'un an.
Soutenez le club developpez.com en souscrivant un abonnement pour que nous puissions continuer à vous proposer des publications.
Soutenez le club developpez.com en souscrivant un abonnement pour que nous puissions continuer à vous proposer des publications.