Les bots envahissent Internet et les utilisateurs d'IA en sont responsables : RAG, scraping, robots.txt ignoré à 99,5 % pendant que les éditeurs regardent leur trafic s'effondrer sans pouvoir riposter

Le 18 février 2026 à 09:03, par Stéphane le calme

50PARTAGES

En l'espace d'un an, le rapport de force sur le web s'est radicalement inversé. Les bots propulsés par l'intelligence artificielle envahissent les sites à une vitesse sans précédent, tandis que le trafic humain recule inexorablement.

Au premier trimestre 2025, on comptait un bot IA pour 200 visiteurs humains sur un site web. Au quatrième trimestre de la même année, ce ratio était tombé à un bot pour 31 humains. C'est la société Tollbit, spécialisée dans le tracking du trafic automatisé, qui publie ces données dans son rapport « State of the Bots Q3-Q4 2025 » — et qui prend soin de préciser que ces chiffres sont probablement en-dessous de la réalité, car les bots les plus récents sont devenus quasi indiscernables de visiteurs humains lors de leurs navigations.

Ce n'est pas le seul signal d'alarme.

Le rapport Imperva Bad Bot Report indiquait que 49,6 % du trafic Internet provenait de bots en 2023, ce qui représentait alors le nombre le plus élevé de bots sur l'internet depuis 2013. Puis, en 2024, le cabinet d'analyse Thales a averti que le trafic automatisé avait, pour la première fois en dix ans, dépassé l'activité humaine sur le web, en représentant 51 % du trafic total. F5 Labs confirme cette tendance avec ses propres mesures : plus de 50 % des requêtes vers des pages de contenus web émanent désormais de sources automatisées. Parallèlement, entre le troisième et le quatrième trimestre 2025, le trafic humain vers les sites web a reculé de 5 %. Une baisse qui, combinée à l'explosion du trafic bot, dessine le contour d'un web profondément reconfiguré.

Pour Olivia Joslin, cofondatrice et directrice des opérations de Tollbit, la conclusion s'impose d'elle-même : « Le trafic IA va continuer à progresser et à remplacer les visiteurs humains directs sur les sites. À terme, l'IA deviendra le lecteur principal d'internet. » Elle va même plus loin dans ses projections : à ce rythme, les visiteurs IA pourraient devenir les visiteurs dominants sur les sites éditeurs dès cette année 2026.

Le RAG, nouveau moteur de cette invasion

Pendant longtemps, la grande peur liée aux bots IA portait sur le scraping d'entraînement : ces robots qui aspirent méthodiquement des milliards de pages web pour nourrir les modèles de langage. Cette pratique, qui a alimenté de nombreuses poursuites judiciaires — le New York Times contre OpenAI, Chegg contre Google, le New York Post et le Wall Street Journal contre Perplexity — est loin d'avoir disparu. Mais elle n'est plus la principale source de trafic bot.

La grande nouveauté depuis 2025, c'est l'explosion du trafic lié à la RAG (Retrieval Augmented Generation). Cette technique permet aux assistants IA comme ChatGPT, Gemini ou Perplexity de ne pas se contenter de leurs données d'entraînement figées, mais d'aller chercher en temps réel des informations sur le web pour répondre aux requêtes des utilisateurs. Concrètement, chaque fois qu'un internaute pose une question à un chatbot IA qui dispose d'accès au web, des bots partent scraper les pages susceptibles de contenir la réponse.

Les données de Tollbit illustrent ce basculement de manière saisissante : entre le deuxième et le quatrième trimestre 2025, le trafic des bots de scraping d'entraînement a reculé de 15 %, tandis que le trafic des bots RAG progressait de 33 % et celui des indexeurs de recherche IA de 59 %. La cause directe est limpide : selon la société marketing Eight Oh Two, 37 % des utilisateurs actifs de l'IA commencent désormais leurs recherches directement sur des plateformes IA comme ChatGPT ou Gemini, plutôt que de passer par Google ou un autre moteur de recherche traditionnel. Et le Pew Research Center estime que 62 % des adultes américains utilisent l'IA sous une forme ou une autre au moins plusieurs fois par semaine.

Chaque humain qui délègue sa recherche d'informations à un assistant IA génère donc, en coulisses, un déluge de requêtes automatisées vers des sites qu'il ne visitera jamais lui-même. C'est le paradoxe central de cette transformation : les utilisateurs sont bien réels, mais leur présence sur le web ne se traduit plus en visites humaines des sites sources.

OpenAI en tête, mais toute l'industrie est concernée

Parmi les acteurs de ce scraping massif, OpenAI truste la première place de manière écrasante. Selon Tollbit, le bot RAG de l'entreprise, baptisé « ChatGPT-User », génère en moyenne cinq fois plus de scrapes par page que le second plus actif scraper, qui est celui de Meta. Les données de DataDome confirment cette hégémonie : le trafic mensuel en provenance d'OpenAI seul dépasse désormais 1,7 milliard de requêtes.

Mais le comportement de ChatGPT-User va au-delà du simple volume : 42 % de ses scrapes, révèle Tollbit, accèdent à des contenus provenant de sites qui l'avaient explicitement bloqué via leur fichier robots.txt. Au total, 30 % de l'ensemble des scrapes IA au quatrième trimestre 2025 ont contourné les restrictions explicites de robots.txt. Un mépris quasi systémique des règles d'accès que les éditeurs avaient établies.

Ce n'est pas un problème marginal. Selon l'analyse de Buzzstream portant sur les 100 plus grands sites d'actualités britanniques et américains, 79 % bloquent désormais au moins un crawler d'entraînement IA, et 71 % bloquent les bots RAG et de recherche en direct. Pourtant, comme le souligne Harry Clarkson-Bennett, directeur SEO du Telegraph : « Les éditeurs bloquent les bots IA via le robots.txt parce qu'il n'y a presque aucun échange de valeur. Les LLM ne sont pas conçus pour envoyer du trafic de référence, et les éditeurs ont toujours besoin de trafic pour survivre. »

La double peine des éditeurs :...

La fin de cet article est réservée aux abonnés. Soutenez le Club Developpez.com en prenant un abonnement pour que nous puissions continuer à vous proposer des publications.

Une erreur dans cette actualité ? Signalez-nous-la !

Votre nom : Votre e-mail :

Décrivez l'erreur que vous souhaitez porter à notre connaissance :