Au premier trimestre 2025, on comptait un bot IA pour 200 visiteurs humains sur un site web. Au quatrième trimestre de la même année, ce ratio était tombé à un bot pour 31 humains. C'est la société Tollbit, spécialisée dans le tracking du trafic automatisé, qui publie ces données dans son rapport « State of the Bots Q3-Q4 2025 » et qui prend soin de préciser que ces chiffres sont probablement en-dessous de la réalité, car les bots les plus récents sont devenus quasi indiscernables de visiteurs humains lors de leurs navigations.
Ce n'est pas le seul signal d'alarme.
Le rapport Imperva Bad Bot Report indiquait que 49,6 % du trafic Internet provenait de bots en 2023, ce qui représentait alors le nombre le plus élevé de bots sur l'internet depuis 2013. Puis, en 2024, le cabinet d'analyse Thales a averti que le trafic automatisé avait, pour la première fois en dix ans, dépassé l'activité humaine sur le web, en représentant 51 % du trafic total. F5 Labs confirme cette tendance avec ses propres mesures : plus de 50 % des requêtes vers des pages de contenus web émanent désormais de sources automatisées. Parallèlement, entre le troisième et le quatrième trimestre 2025, le trafic humain vers les sites web a reculé de 5 %. Une baisse qui, combinée à l'explosion du trafic bot, dessine le contour d'un web profondément reconfiguré.
Pour Olivia Joslin, cofondatrice et directrice des opérations de Tollbit, la conclusion s'impose d'elle-même : « Le trafic IA va continuer à progresser et à remplacer les visiteurs humains directs sur les sites. À terme, l'IA deviendra le lecteur principal d'internet. » Elle va même plus loin dans ses projections : à ce rythme, les visiteurs IA pourraient devenir les visiteurs dominants sur les sites éditeurs dès cette année 2026.
Le RAG, nouveau moteur de cette invasion
Pendant longtemps, la grande peur liée aux bots IA portait sur le scraping d'entraînement : ces robots qui aspirent méthodiquement des milliards de pages web pour nourrir les modèles de langage. Cette pratique, qui a alimenté de nombreuses poursuites judiciaires le New York Times contre OpenAI, Chegg contre Google, le New York Post et le Wall Street Journal contre Perplexity est loin d'avoir disparu. Mais elle n'est plus la principale source de trafic bot.
La grande nouveauté depuis 2025, c'est l'explosion du trafic lié à la RAG (Retrieval Augmented Generation). Cette technique permet aux assistants IA comme ChatGPT, Gemini ou Perplexity de ne pas se contenter de leurs données d'entraînement figées, mais d'aller chercher en temps réel des informations sur le web pour répondre aux requêtes des utilisateurs. Concrètement, chaque fois qu'un internaute pose une question à un chatbot IA qui dispose d'accès au web, des bots partent scraper les pages susceptibles de contenir la réponse.
Les données de Tollbit illustrent ce basculement de manière saisissante : entre le deuxième et le quatrième trimestre 2025, le trafic des bots de scraping d'entraînement a reculé de 15 %, tandis que le trafic des bots RAG progressait de 33 % et celui des indexeurs de recherche IA de 59 %. La cause directe est limpide : selon la société marketing Eight Oh Two, 37 % des utilisateurs actifs de l'IA commencent désormais leurs recherches directement sur des plateformes IA comme ChatGPT ou Gemini, plutôt que de passer par Google ou un autre moteur de recherche traditionnel. Et le Pew Research Center estime que 62 % des adultes américains utilisent l'IA sous une forme ou une autre au moins plusieurs fois par semaine.
Chaque humain qui délègue sa recherche d'informations à un assistant IA génère donc, en coulisses, un déluge de requêtes automatisées vers des sites qu'il ne visitera jamais lui-même. C'est le paradoxe central de cette transformation : les utilisateurs sont bien réels, mais leur présence sur le web ne se traduit plus en visites humaines des sites sources.
OpenAI en tête, mais toute l'industrie est concernée
Parmi les acteurs de ce scraping massif, OpenAI truste la première place de manière écrasante. Selon Tollbit, le bot RAG de l'entreprise, baptisé « ChatGPT-User », génère en moyenne cinq fois plus de scrapes par page que le second plus actif scraper, qui est celui de Meta. Les données de DataDome confirment cette hégémonie : le trafic mensuel en provenance d'OpenAI seul dépasse désormais 1,7 milliard de requêtes.
Mais le comportement de ChatGPT-User va au-delà du simple volume : 42 % de ses scrapes, révèle Tollbit, accèdent à des contenus provenant de sites qui l'avaient explicitement bloqué via leur fichier robots.txt. Au total, 30 % de l'ensemble des scrapes IA au quatrième trimestre 2025 ont contourné les restrictions explicites de robots.txt. Un mépris quasi systémique des règles d'accès que les éditeurs avaient établies.
Ce n'est pas un problème marginal. Selon l'analyse de Buzzstream portant sur les 100 plus grands sites d'actualités britanniques et américains, 79 % bloquent désormais au moins un crawler d'entraînement IA, et 71 % bloquent les bots RAG et de recherche en direct. Pourtant, comme le souligne Harry Clarkson-Bennett, directeur SEO du Telegraph : « Les éditeurs bloquent les bots IA via le robots.txt parce qu'il n'y a presque aucun échange de valeur. Les LLM ne sont pas conçus pour envoyer du trafic de référence, et les éditeurs ont toujours besoin de trafic pour survivre. »
La double peine des éditeurs : des coûts qui explosent, des revenus qui s'effondrent
Le tableau est particulièrement sombre pour les acteurs du web qui vivent de leur contenu. Les éditeurs subissent ce que l'on pourrait qualifier de double peine : d'un côté, une explosion des coûts d'infrastructure générée par le scraping intensif ; de l'autre, une chute vertigineuse des revenus liés au trafic référencé.
Sur le plan des coûts d'abord, les bots IA ne se contentent pas de visiter discrètement les pages : ils déclenchent des pics de charge qui font s'emballer les serveurs en autoscale. Tristan Berguer, cofondateur de la start-up Senthor, rapporte avoir constaté des factures serveur mensuelles atteignant 60 000 à 120 000 euros pour certains éditeurs à cause de ce faux trafic. Entre janvier et août 2025, le trafic de requêtes IA et LLM a presque quadruplé chez les clients de DataDome, passant de 2,6 % à 10,1 % du trafic total de bots.
Sur le plan des revenus ensuite, la situation est tout aussi préoccupante. Le taux de clics (CTR) depuis les interfaces IA vers les sites sources est tombé à 0,27 % au quatrième trimestre 2025, contre 0,8 % au deuxième trimestre soit une division par trois en seulement six mois. Les éditeurs qui ont conclu des accords de licence avec des entreprises IA en espérant s'en sortir mieux ne sont pas épargnés non plus : leur CTR n'atteignait que 1,33 % au quatrième trimestre, soit une division par 6,5 par rapport au début de l'année. En clair, il faut environ 135 scrapes IA pour générer un seul visiteur humain redirigé vers le site source et ce ratio empire de mois en mois.
La dépendance à Google, longtemps décriée, apparaît rétrospectivement comme un moindre mal. Malgré son érosion, Google générait encore 84,1 % des recommandations externes aux éditeurs au deuxième trimestre 2025. L'ensemble des applications IA ne représentait, lui, que 0,102 % du trafic « referral ». Autrement dit, Google délivrait encore 831 fois plus de visiteurs que tous les systèmes d'IA réunis tout en aspirant le contenu via ses propres bots pour alimenter ses AI Overviews, sans guère plus de contrepartie.
Des contre-mesures encore balbutiantes
Face à cette razzia, les éditeurs réagissent mais peinent à trouver des solutions véritablement efficaces. Le fichier robots.txt, instrument traditionnel de régulation du crawl, est respecté à un taux d'environ 0,5 % seulement par les bots IA, selon certaines mesures réalisées par Senthor une quasi-nullité qui le rend pratiquement inopérant. Les blocages ciblant les bots IA ont pourtant bondi de 336 % sur un an, et les hits sur paywalls « anti-IA » spécifiques ont progressé de 360 % entre le premier et le deuxième trimestre 2025.
Plusieurs acteurs tentent de structurer un nouveau modèle économique. En 2025, Cloudflare a annoncé sa volonté de créer un système de monétisation du crawl pour les éditeurs, permettant de facturer les accès des bots IA à leurs contenus une annonce dont l'implémentation tarde à se concrétiser. Toutefois, en 2026, l'entreprise a changé d'approche : elle prend désormais en charge la conversion automatique et en temps réel du contenu HTML en Markdown pour les agents IA et les robots d'indexation, à l'aide d'en-têtes de négociation de contenu. Lorsque cette fonctionnalité est activée, les systèmes IA peuvent demander directement le Markdown aux sites web participants, avec des réponses comprenant des métadonnées sur le nombre de jetons et des signaux d'utilisation de contenu standardisés. Cela réduit l'utilisation des jetons jusqu'à 80 % et améliore l'efficacité.
Abordant l'impact fondamental de l'IA sur les modèles d'entreprise en ligne, son PDG Matthew Prince a avertit que l'IA brise le modèle économique du web en découplant la création de contenu de la valeur et en fournissant des réponses sans générer de trafic vers les sources originales. Cloudflare se trouve au cur de ce problème majeur, car il alimente 80 % des géants de l'IA et entre 20 à 30 % d'Internet, indique Matthew Prince. Ainsi, l'entreprise souhaite réparer tout ce qui est cassé. Toutefois, le problème réside dans le coût de l'IA, qui représente une dépense importante pour les autres, selon Prince...
La fin de cet article est réservée aux abonnés. Soutenez le Club Developpez.com en prenant un abonnement pour que nous puissions continuer à vous proposer des publications.