Les bots envahissent Internet et les utilisateurs d'IA en sont responsables : RAG, scraping, robots.txt ignoré à 99,5 %,les bots IA dévorent le web pendant que les éditeurs regardent leur trafic s'effondrer
En l'espace d'un an, le rapport de force sur le web s'est radicalement inversé. Les bots propulsés par l'intelligence artificielle envahissent les sites à une vitesse sans précédent, tandis que le trafic humain recule inexorablement.
Au premier trimestre 2025, on comptait un bot IA pour 200 visiteurs humains sur un site web. Au quatrième trimestre de la même année, ce ratio était tombé à un bot pour 31 humains. C'est la société Tollbit, spécialisée dans le tracking du trafic automatisé, qui publie ces données dans son rapport « State of the Bots Q3-Q4 2025 » — et qui prend soin de préciser que ces chiffres sont probablement en-dessous de la réalité, car les bots les plus récents sont devenus quasi indiscernables de visiteurs humains lors de leurs navigations.
Ce n'est pas le seul signal d'alarme.
Le rapport Imperva Bad Bot Report indiquait que 49,6 % du trafic Internet provenait de bots en 2023, ce qui représentait alors le nombre le plus élevé de bots sur l'internet depuis 2013. Puis, en 2024, le cabinet d'analyse Thales a averti que le trafic automatisé avait, pour la première fois en dix ans, dépassé l'activité humaine sur le web, en représentant 51 % du trafic total. F5 Labs confirme cette tendance avec ses propres mesures : plus de 50 % des requêtes vers des pages de contenus web émanent désormais de sources automatisées. Parallèlement, entre le troisième et le quatrième trimestre 2025, le trafic humain vers les sites web a reculé de 5 %. Une baisse qui, combinée à l'explosion du trafic bot, dessine le contour d'un web profondément reconfiguré.
Pour Olivia Joslin, cofondatrice et directrice des opérations de Tollbit, la conclusion s'impose d'elle-même : « Le trafic IA va continuer à progresser et à remplacer les visiteurs humains directs sur les sites. À terme, l'IA deviendra le lecteur principal d'internet. » Elle va même plus loin dans ses projections : à ce rythme, les visiteurs IA pourraient devenir les visiteurs dominants sur les sites éditeurs dès cette année 2026.
Le RAG, nouveau moteur de cette invasion
Pendant longtemps, la grande peur liée aux bots IA portait sur le scraping d'entraînement : ces robots qui aspirent méthodiquement des milliards de pages web pour nourrir les modèles de langage. Cette pratique, qui a alimenté de nombreuses poursuites judiciaires — le New York Times contre OpenAI, Chegg contre Google, le New York Post et le Wall Street Journal contre Perplexity — est loin d'avoir disparu. Mais elle n'est plus la principale source de trafic bot.
La grande nouveauté depuis 2025, c'est l'explosion du trafic lié à la RAG (Retrieval Augmented Generation). Cette technique permet aux assistants IA comme ChatGPT, Gemini ou Perplexity de ne pas se contenter de leurs données d'entraînement figées, mais d'aller chercher en temps réel des informations sur le web pour répondre aux requêtes des utilisateurs. Concrètement, chaque fois qu'un internaute pose une question à un chatbot IA qui dispose d'accès au web, des bots partent scraper les pages susceptibles de contenir la réponse.
Les données de Tollbit illustrent ce basculement de manière saisissante : entre le deuxième et le quatrième trimestre 2025, le trafic des bots de scraping d'entraînement a reculé de 15 %, tandis que le trafic des bots RAG progressait de 33 % et celui des indexeurs de recherche IA de 59 %. La cause directe est limpide : selon la société marketing Eight Oh Two, 37 % des utilisateurs actifs de l'IA commencent désormais leurs recherches directement sur des plateformes IA comme ChatGPT ou Gemini, plutôt que de passer par Google ou un autre moteur de recherche traditionnel. Et le Pew Research Center estime que 62 % des adultes américains utilisent l'IA sous une forme ou une autre au moins plusieurs fois par semaine.
Chaque humain qui délègue sa recherche d'informations à un assistant IA génère donc, en coulisses, un déluge de requêtes automatisées vers des sites qu'il ne visitera jamais lui-même. C'est le paradoxe central de cette transformation : les utilisateurs sont bien réels, mais leur présence sur le web ne se traduit plus en visites humaines des sites sources.
OpenAI en tête, mais toute l'industrie est concernée
Parmi les acteurs de ce scraping massif, OpenAI truste la première place de manière écrasante. Selon Tollbit, le bot RAG de l'entreprise, baptisé « ChatGPT-User », génère en moyenne cinq fois plus de scrapes par page que le second plus actif scraper, qui est celui de Meta. Les données de DataDome confirment cette hégémonie : le trafic mensuel en provenance d'OpenAI seul dépasse désormais 1,7 milliard de requêtes.
Mais le comportement de ChatGPT-User va au-delà du simple volume : 42 % de ses scrapes, révèle Tollbit, accèdent à des contenus provenant de sites qui l'avaient explicitement bloqué via leur fichier robots.txt. Au total, 30 % de l'ensemble des scrapes IA au quatrième trimestre 2025 ont contourné les restrictions explicites de robots.txt. Un mépris quasi systémique des règles d'accès que les éditeurs avaient établies.
Ce n'est pas un problème marginal. Selon l'analyse de Buzzstream portant sur les 100 plus grands sites d'actualités britanniques et américains, 79 % bloquent désormais au moins un crawler d'entraînement IA, et 71 % bloquent les bots RAG et de recherche en direct. Pourtant, comme le souligne Harry Clarkson-Bennett, directeur SEO du Telegraph : « Les éditeurs bloquent les bots IA via le robots.txt parce qu'il n'y a presque aucun échange de valeur. Les LLM ne sont pas conçus pour envoyer du trafic de référence, et les éditeurs ont toujours besoin de trafic pour survivre. »
La double peine des éditeurs : des coûts qui explosent, des revenus qui s'effondrent
Le tableau est particulièrement sombre pour les acteurs du web qui vivent de leur contenu. Les éditeurs subissent ce que l'on pourrait qualifier de double peine : d'un côté, une explosion des coûts d'infrastructure générée par le scraping intensif ; de l'autre, une chute vertigineuse des revenus liés au trafic référencé.
Sur le plan des coûts d'abord, les bots IA ne se contentent pas de visiter discrètement les pages : ils déclenchent des pics de charge qui font s'emballer les serveurs en autoscale. Tristan Berguer, cofondateur de la start-up Senthor, rapporte avoir constaté des factures serveur mensuelles atteignant 60 000 à 120 000 euros pour certains éditeurs à cause de ce faux trafic. Entre janvier et août 2025, le trafic de requêtes IA et LLM a presque quadruplé chez les clients de DataDome, passant de 2,6 % à 10,1 % du trafic total de bots.
Sur le plan des revenus ensuite, la situation est tout aussi préoccupante. Le taux de clics (CTR) depuis les interfaces IA vers les sites sources est tombé à 0,27 % au quatrième trimestre 2025, contre 0,8 % au deuxième trimestre — soit une division par trois en seulement six mois. Les éditeurs qui ont conclu des accords de licence avec des entreprises IA en espérant s'en sortir mieux ne sont pas épargnés non plus : leur CTR n'atteignait que 1,33 % au quatrième trimestre, soit une division par 6,5 par rapport au début de l'année. En clair, il faut environ 135 scrapes IA pour générer un seul visiteur humain redirigé vers le site source — et ce ratio empire de mois en mois.
La dépendance à Google, longtemps décriée, apparaît rétrospectivement comme un moindre mal. Malgré son érosion, Google générait encore 84,1 % des recommandations externes aux éditeurs au deuxième trimestre 2025. L'ensemble des applications IA ne représentait, lui, que 0,102 % du trafic « referral ». Autrement dit, Google délivrait encore 831 fois plus de visiteurs que tous les systèmes d'IA réunis — tout en aspirant le contenu via ses propres bots pour alimenter ses AI Overviews, sans guère plus de contrepartie.
Des contre-mesures encore balbutiantes
Face à cette razzia, les éditeurs réagissent mais peinent à trouver des solutions véritablement efficaces. Le fichier robots.txt, instrument traditionnel de régulation du crawl, est respecté à un taux d'environ 0,5 % seulement par les bots IA, selon certaines mesures réalisées par Senthor — une quasi-nullité qui le rend pratiquement inopérant. Les blocages ciblant les bots IA ont pourtant bondi de 336 % sur un an, et les hits sur paywalls « anti-IA » spécifiques ont progressé de 360 % entre le premier et le deuxième trimestre 2025.
Plusieurs acteurs tentent de structurer un nouveau modèle économique. En 2025, Cloudflare a annoncé sa volonté de créer un système de monétisation du crawl pour les éditeurs, permettant de facturer les accès des bots IA à leurs contenus — une annonce dont l'implémentation tarde à se concrétiser. Toutefois, en 2026, l'entreprise a changé d'approche : elle prend désormais en charge la conversion automatique et en temps réel du contenu HTML en Markdown pour les agents IA et les robots d'indexation, à l'aide d'en-têtes de négociation de contenu. Lorsque cette fonctionnalité est activée, les systèmes IA peuvent demander directement le Markdown aux sites web participants, avec des réponses comprenant des métadonnées sur le nombre de jetons et des signaux d'utilisation de contenu standardisés. Cela réduit l'utilisation des jetons jusqu'à 80 % et améliore l'efficacité.
Abordant l'impact fondamental de l'IA sur les modèles d'entreprise en ligne, son PDG Matthew Prince a avertit que l'IA brise le modèle économique du web en découplant la création de contenu de la valeur et en fournissant des réponses sans générer de trafic vers les sources originales. Cloudflare se trouve au cœur de ce problème majeur, car il alimente 80 % des géants de l'IA et entre 20 à 30 % d'Internet, indique Matthew Prince. Ainsi, l'entreprise souhaite réparer tout ce qui est cassé. Toutefois, le problème réside dans le coût de l'IA, qui représente une dépense importante pour les autres, selon Prince.
Quoiqu'il en soit, des start-ups comme Tollbit, Senthor ou d'autres encore proposent des solutions de type « pay-per-crawl » : les entreprises d'IA paieraient pour chaque page scrapée, redistribuant une partie de la valeur générée aux créateurs de contenu. Ce modèle s'inspire des droits voisins négociés dans la presse avec les plateformes — avec les mêmes difficultés et les mêmes rapports de force inégaux.
La piste technique n'est pas non plus abandonnée. Des initiatives émergent pour standardiser des protocoles d'authentification des bots, à l'image de ce qu'Open RTB a représenté pour la publicité programmatique. Paul Ripart, chez Prisma Media, évoque la nécessité de construire « l'équivalent d'OpenRTB pour le programmatique, mais cette fois pour faire dialoguer les agents IA entre eux ». Une perspective encore lointaine, dans un écosystème où les incitations des grandes plateformes IA vont clairement dans le sens de l'accès gratuit et massif aux contenus.
Une menace systémique pour l'écosystème de l'information
Au-delà de la question économique immédiate, c'est l'architecture même du web ouvert qui se trouve menacée. Si les éditeurs de contenus ne peuvent plus vivre de leur audience — parce que leur audience est désormais principalement constituée de bots qui ne cliquent pas sur les publicités et ne s'abonnent pas —, ils seront contraints de choisir entre deux issues : le paywall généralisé ou la disparition. Chris Richmond, CEO de Snopes, résume le dilemme : « Si la transition vers l'IA continue à éroder le trafic web, je crains que la plupart des éditeurs de contenus premium n'aient pas d'autre choix que d'adopter un modèle reposant uniquement sur l'abonnement. Il ne serait bon pour personne que l'ensemble d'Internet se retrouve derrière un accès payant. »
Il y a là une ironie cruelle : les bots RAG qui scrapent les contenus pour alimenter les réponses des chatbots IA détruisent progressivement les conditions de production de ces mêmes contenus. Une IA qui épuise sa matière première. Mais le problème ne s'arrête pas là. Des études récentes suggèrent que le recours massif à l'IA comme outil de recherche d'information a des effets mesurables sur la pensée critique des utilisateurs et la rétention des connaissances. Les jeunes utilisateurs sont particulièrement concernés. L'IA ajoute une couche de curation supplémentaire sur les algorithmes des moteurs de recherche, opacifiant encore davantage la chaîne entre un fait et sa perception par l'utilisateur final.
L'internet tel qu'il s'est construit depuis trente ans — un écosystème reposant sur l'échange entre créateurs de contenus et visiteurs humains, monétisé par la publicité et progressivement par l'abonnement — est en train de muer vers quelque chose de fondamentalement différent. Un internet où le lecteur primaire n'est plus un humain, mais une machine qui résume, synthétise et reformule avant de délivrer une réponse clé en main. La question n'est plus de savoir si cette transformation aura lieu, mais de comprendre ce qui, de l'open web, survivra à ce basculement.
Source : Tollbit
Et vous ?
Le robots.txt est-il mort ? Respecté à seulement 0,5 % par les bots IA selon certaines mesures, ce protocole vieux de 30 ans a-t-il encore la moindre légitimité technique ou morale — et par quoi faut-il le remplacer ?
Le modèle pay-per-crawl est-il réaliste ? Cloudflare, Tollbit, Senthor tentent de faire payer les bots IA pour chaque page scrapée. Mais qui fixe le prix, qui audite les volumes, et les géants de l'IA ont-ils vraiment intérêt à jouer le jeu ?
Les accords de licence IA sont-ils une capitulation ? Certains éditeurs ont signé avec OpenAI ou Google — et leurs CTR s'effondrent quand même (1,33 % seulement). Ces deals protègent-ils vraiment les éditeurs ou ne font-ils que légitimer le pillage ?
L'internet entièrement derrière paywall : bonne ou mauvaise issue ? Si les bots IA rendent le modèle publicitaire intenable, le tout-abonnement est-il une solution viable ou le début d'un internet fragmenté accessible aux seuls privilégiés ?
L'IA scie-t-elle la branche sur laquelle elle est assise ? Si les bots RAG appauvrissent les créateurs de contenus jusqu'à les faire disparaître, d'où viendront les données qui alimenteront les prochaines générations de LLM ?
Vous avez lu gratuitement 3 123 articles depuis plus d'un an.
Soutenez le club developpez.com en souscrivant un abonnement pour que nous puissions continuer à vous proposer des publications.
Soutenez le club developpez.com en souscrivant un abonnement pour que nous puissions continuer à vous proposer des publications.

