IdentifiantMot de passe
Loading...
Mot de passe oublié ?Je m'inscris ! (gratuit)

Vous êtes nouveau sur Developpez.com ? Créez votre compte ou connectez-vous afin de pouvoir participer !

Vous devez avoir un compte Developpez.com et être connecté pour pouvoir participer aux discussions.

Vous n'avez pas encore de compte Developpez.com ? Créez-en un en quelques instants, c'est entièrement gratuit !

Si vous disposez déjà d'un compte et qu'il est bien activé, connectez-vous à l'aide du formulaire ci-dessous.

Identifiez-vous
Identifiant
Mot de passe
Mot de passe oublié ?
Créer un compte

L'inscription est gratuite et ne vous prendra que quelques instants !

Je m'inscris !

Les bots envahissent Internet et les utilisateurs d'IA en sont responsables : RAG, scraping, robots.txt ignoré à 99,5 % pendant que les éditeurs regardent leur trafic s'effondrer sans pouvoir riposter

Le , par Stéphane le calme

50PARTAGES

5  0 
En l'espace d'un an, le rapport de force sur le web s'est radicalement inversé. Les bots propulsés par l'intelligence artificielle envahissent les sites à une vitesse sans précédent, tandis que le trafic humain recule inexorablement.

Au premier trimestre 2025, on comptait un bot IA pour 200 visiteurs humains sur un site web. Au quatrième trimestre de la même année, ce ratio était tombé à un bot pour 31 humains. C'est la société Tollbit, spécialisée dans le tracking du trafic automatisé, qui publie ces données dans son rapport « State of the Bots Q3-Q4 2025 » — et qui prend soin de préciser que ces chiffres sont probablement en-dessous de la réalité, car les bots les plus récents sont devenus quasi indiscernables de visiteurs humains lors de leurs navigations.

Ce n'est pas le seul signal d'alarme.

Le rapport Imperva Bad Bot Report indiquait que 49,6 % du trafic Internet provenait de bots en 2023, ce qui représentait alors le nombre le plus élevé de bots sur l'internet depuis 2013. Puis, en 2024, le cabinet d'analyse Thales a averti que le trafic automatisé avait, pour la première fois en dix ans, dépassé l'activité humaine sur le web, en représentant 51 % du trafic total. F5 Labs confirme cette tendance avec ses propres mesures : plus de 50 % des requêtes vers des pages de contenus web émanent désormais de sources automatisées. Parallèlement, entre le troisième et le quatrième trimestre 2025, le trafic humain vers les sites web a reculé de 5 %. Une baisse qui, combinée à l'explosion du trafic bot, dessine le contour d'un web profondément reconfiguré.

Pour Olivia Joslin, cofondatrice et directrice des opérations de Tollbit, la conclusion s'impose d'elle-même : « Le trafic IA va continuer à progresser et à remplacer les visiteurs humains directs sur les sites. À terme, l'IA deviendra le lecteur principal d'internet. » Elle va même plus loin dans ses projections : à ce rythme, les visiteurs IA pourraient devenir les visiteurs dominants sur les sites éditeurs dès cette année 2026.


Le RAG, nouveau moteur de cette invasion

Pendant longtemps, la grande peur liée aux bots IA portait sur le scraping d'entraînement : ces robots qui aspirent méthodiquement des milliards de pages web pour nourrir les modèles de langage. Cette pratique, qui a alimenté de nombreuses poursuites judiciaires — le New York Times contre OpenAI, Chegg contre Google, le New York Post et le Wall Street Journal contre Perplexity — est loin d'avoir disparu. Mais elle n'est plus la principale source de trafic bot.

La grande nouveauté depuis 2025, c'est l'explosion du trafic lié à la RAG (Retrieval Augmented Generation). Cette technique permet aux assistants IA comme ChatGPT, Gemini ou Perplexity de ne pas se contenter de leurs données d'entraînement figées, mais d'aller chercher en temps réel des informations sur le web pour répondre aux requêtes des utilisateurs. Concrètement, chaque fois qu'un internaute pose une question à un chatbot IA qui dispose d'accès au web, des bots partent scraper les pages susceptibles de contenir la réponse.

Les données de Tollbit illustrent ce basculement de manière saisissante : entre le deuxième et le quatrième trimestre 2025, le trafic des bots de scraping d'entraînement a reculé de 15 %, tandis que le trafic des bots RAG progressait de 33 % et celui des indexeurs de recherche IA de 59 %. La cause directe est limpide : selon la société marketing Eight Oh Two, 37 % des utilisateurs actifs de l'IA commencent désormais leurs recherches directement sur des plateformes IA comme ChatGPT ou Gemini, plutôt que de passer par Google ou un autre moteur de recherche traditionnel. Et le Pew Research Center estime que 62 % des adultes américains utilisent l'IA sous une forme ou une autre au moins plusieurs fois par semaine.

Chaque humain qui délègue sa recherche d'informations à un assistant IA génère donc, en coulisses, un déluge de requêtes automatisées vers des sites qu'il ne visitera jamais lui-même. C'est le paradoxe central de cette transformation : les utilisateurs sont bien réels, mais leur présence sur le web ne se traduit plus en visites humaines des sites sources.


OpenAI en tête, mais toute l'industrie est concernée

Parmi les acteurs de ce scraping massif, OpenAI truste la première place de manière écrasante. Selon Tollbit, le bot RAG de l'entreprise, baptisé « ChatGPT-User », génère en moyenne cinq fois plus de scrapes par page que le second plus actif scraper, qui est celui de Meta. Les données de DataDome confirment cette hégémonie : le trafic mensuel en provenance d'OpenAI seul dépasse désormais 1,7 milliard de requêtes.

Mais le comportement de ChatGPT-User va au-delà du simple volume : 42 % de ses scrapes, révèle Tollbit, accèdent à des contenus provenant de sites qui l'avaient explicitement bloqué via leur fichier robots.txt. Au total, 30 % de l'ensemble des scrapes IA au quatrième trimestre 2025 ont contourné les restrictions explicites de robots.txt. Un mépris quasi systémique des règles d'accès que les éditeurs avaient établies.

Ce n'est pas un problème marginal. Selon l'analyse de Buzzstream portant sur les 100 plus grands sites d'actualités britanniques et américains, 79 % bloquent désormais au moins un crawler d'entraînement IA, et 71 % bloquent les bots RAG et de recherche en direct. Pourtant, comme le souligne Harry Clarkson-Bennett, directeur SEO du Telegraph : « Les éditeurs bloquent les bots IA via le robots.txt parce qu'il n'y a presque aucun échange de valeur. Les LLM ne sont pas conçus pour envoyer du trafic de référence, et les éditeurs ont toujours besoin de trafic pour survivre. »


La double peine des éditeurs :...
La fin de cet article est réservée aux abonnés. Soutenez le Club Developpez.com en prenant un abonnement pour que nous puissions continuer à vous proposer des publications.

Une erreur dans cette actualité ? Signalez-nous-la !

Avatar de Anselme45
Membre extrêmement actif https://www.developpez.com
Le 18/02/2026 à 10:49
Les bots envahissent Internet et les utilisateurs d'IA en sont responsables : RAG, scraping, robots.txt ignoré à 99,5 %,
les bots IA dévorent le web pendant que les éditeurs regardent leur trafic s'effondrer
Ce ne sont pas les utilisateurs d'IA qui sont responsables mais simplement google!!!

Depuis l'introduction de l'IA de google qui propose une réponse aux recherches des utilisateurs (humains, faut-il préciser), les utilisateurs ne prennent plus la peine de cliquer sur les liens qui suivent et qui correspondent aux vrais résultats d'une recherche sur le web...

Conséquences:

1. Bien souvent, l'utilisateur reste dans l'erreur parce que l'IA de google lui a raconté des conneries

2. Les sites web sont désertés, leur seuls visiteurs étant des bots conventionnels et des bots IA

3. Les éditeurs de site (institutions, autorités, entreprises, etc...) voient de moins en moins l'intérêt d'investir dans le développement d'un site web

C'est tout simplement la mort du web qui est amorcé... Et bientôt la mort des IA qui se basent sur les sites web pour leur apprentissage...

Après l'IA qui est responsable du licenciement massif des salariés, l'IA qui est responsable de l'asphyxie de l'industrie électronique et informatique en s'appropriant la totalité des ressources (disques durs, micro-processeurs, cartes graphiques, etc..), l'IA qui est responsable de l'abrutissement des gens qui ne prennent plus la peine d'apprendre, voilà l'IA responsable de l'anéantissement du web qui se voulait être le moteur du vivre ensemble, de la promotion de la culture et de la connaissance pour le plus grand monde...
8  0 
Avatar de Anselme45
Membre extrêmement actif https://www.developpez.com
Le 14/03/2026 à 13:51
Dans une interview, le développeur irlandais dresse un constat sévère : le contenu produit par les grands modèles de langage (LLM) est en train de corrompre l'internet dans une boucle de rétroaction dont personne ne semble mesurer véritablement les conséquences.
Nous avons un bel exemple avec youtube: Les vidéo IA complètement délirantes sont en train d'envahir la plateforme...

Vous avez un doute sur l'origine IA de la video? Le plus souvent vous allez avoir un agent IA qui se fait passer pour l'auteur de la video qui répond aux commentaires des internautes et la réponse prend toujours la même forme: Quelque soit la position de l'internaute, l'IA le remercie et lui dit qu'il a raison

Exemple réel sur youtube:

Commentaire d'un internaute sur une video IA présentant un évènement historique : "Cette video est nulle et ne correspond pas du tout à la réalité historique"

Diverses réponses de l'IA répondant aux commentaires critiques des internautes (Attention, il s'agit de vraies réponses de l'IA sur youtube!):

"Je vois ce que vous voulez dire. Mon objectif reste de raconter les mecanismes historiques et les lecons humaines, et je suis partant pour en discuter sous l angle des faits et du contexte." (on remarquera que l'IA a des problèmes à gérer les accents de la langue française: mécanisme, leçon, l'angle? Et l'apostrophe entre le "l" et "angle", l'IA connait pas?)

"Votre témoignage apporte un éclairage humain intéressant. Ces perceptions sociales et nationales aident aussi à comprendre certains choix historiques."

"Votre précision est pertinente. Les chiffres et la terminologie font encore débat selon les sources, et le format impose parfois des simplifications qu’il est important de discuter."

"Merci pour cette précision. Tu as raison de souligner le terrain réel et son importance stratégique, qui est parfois simplifié dans les représentations visuelles."

"Merci, bonne observation. Les noms et appellations changent selon les sources et les époques, donc ça mérite d’être expliqué plus proprement. Je vais faire plus attention à la formulation."
3  0 
Avatar de stigma
Membre expérimenté https://www.developpez.com
Le 14/03/2026 à 8:22
j'utilise l'IA pour des aides à la programmation mais elle fait de plus en plus d'erreurs.
1  0 
Avatar de Fagus
Membre expert https://www.developpez.com
Le 18/02/2026 à 13:24
Citation Envoyé par calvaire Voir le message
J'ai même envie de dire, si le dev publie pas de doc sur un langage/techno/api c'est même pas un probleme si l'ia a accès au code source
Juste, l'autre jour copilot m'a justifié avec le code et les API d'android que les utilisateurs multiples ont accès aux SMS de l'utilisateur principal (ce que je constate), alors même que google a écrit une page officielle qui dit le contraire...
0  0 
Avatar de Raquiël Danadu
Candidat au Club https://www.developpez.com
Le 28/02/2026 à 17:35
En se positionnant contre les humains, l’IA ne fait que creuser sa propre tombe! Ce sont les humains qui ont créés IA mais ce dernier veut pourtant se développer sans humains! Avec le disruptive thinking technology, l’histoire de l’informatique ne fait que solder en continuelle avancées de tour au rond sans innovation possible. Les chaines de remplacement ne font que se succéder, le seul que je ne puisse considérer c’est le puissance de traitement. Mais plus on peut, plus on exige! A quoi bon... Je suis d’avis que ces donnéesvores en payent le pot cassé de leur consommation illicite des données originales. Les humains doivent avoir les prérogatives sur les contenus originales, sinon nous abouturons à une dictature qui déjà se développe en background.
0  0 
Avatar de floyer
Membre éclairé https://www.developpez.com
Le 28/02/2026 à 18:45
Les IA ne veulent rien…

Ils sont développés par leurs promoteurs (OpenAI, Anthropic…) dont le but est le profit.

Si l’IA réussi (économiquement car certaines entreprises du secteur sont très déficitaires), le gain sera pour les promoteurs, pas forcément pour les salariés qui pourraient être remerciés car un développeur suffit là où il y en avait besoin de deux. On peut aussi imaginer des avantages pour les entreprises qui économisent grâce à l’IA et à leur client si la réductions des coûts est répercutée en aval.

Mais ce n’est pas nouveau, la révolte des Canuts, le remplacement de la standardiste du 22 à Asnière ou du poinçonneur des Lilas sont des précédents où l’automatisation supprime des emplois. La principale nouveauté est de toucher des professions Bac+5.
1  1 
Avatar de calvaire
Expert éminent https://www.developpez.com
Le 18/02/2026 à 12:30
Citation Envoyé par Anselme45 Voir le message
C'est tout simplement la mort du web qui est amorcé... Et bientôt la mort des IA qui se basent sur les sites web pour leur apprentissage...
j'y ai cru aussi jusqu'a encore il y'a 3mois.
j'ai pu rencontrer à l'occasion d'une conférence à Honk Kong des experts sur le sujets avec les nouveaux modèles dernière génération, nous avons pu en discuter et j'ai pu voir des démo, en faite les modèles ont déjà régler en partis ce probleme.

Tous les nouveaux modèles sont entrainé sur des datasets synthétiques fait par des anciens modèles d'ia, un peu comme un compilateur qui compile sa futur version.
Avec le système d'agent, il n'y a même plus besoin de scapper le web, les agents sont désormais capable de faire eux memes des tests et résoudre des problemes, à la manière d'un développeur avant l'ia et stackoverflow, il cherche tous seul des solutions, lance du code, essaye des commandes (qui parfois n'existe pas).... pour l'avoir expérimenter, c'est encore très lent et très cher en token, il peu passer une nuit à résoudre un bug et tester pleins de truc et se retrouver avec une facture de 2000-3000$, ce qui n'est pas si cher que ça en réalité car un consultant coute facile 1000$/jours

que les forums, blogs et autres meurt ca empêchera pas les modèles d'évoluer. J'ai même envie de dire, si le dev publie pas de doc sur un langage/techno/api c'est même pas un probleme si l'ia a accès au code source
scapper le web permet d'etre a jours sur l’actualité et les nouvelles technos, et ce web la continuera d'exister, car je doute par exemple que google ou mongodb cache la doc de ces api/ par exemple.
Pour le coté social, les sites d'actualités sont légions, et il 'y en institutionnalisé comme l'afp et ca continuera d'exister pour renseigner l'ia sur l'état actuel du monde. Sinon les trends sur les réseaux sociaux suffisent à eux même.
1  5 
Avatar de calvaire
Expert éminent https://www.developpez.com
Le 28/02/2026 à 20:05
Citation Envoyé par floyer Voir le message
Mais ce n’est pas nouveau, la révolte des Canuts, le remplacement de la standardiste du 22 à Asnière ou du poinçonneur des Lilas sont des précédents où l’automatisation supprime des emplois.
Avec le recul, on peut affirmer que la disparition de ces métiers fut une bonne chose. Qui, en 2026, aurait vraiment envie de devenir Canut et de filer la soie ?
Qui voudrait être standardiste à répondre à des dizaines d’appels répétitifs et chiants, ou poinçonneur des Lilas coincé dans une cabine glaciale à vérifier des tickets toute la journée  ?

Citation Envoyé par floyer Voir le message
La principale nouveauté est de toucher des professions Bac+5.
C’est faux de dire que la nouveauté est de toucher des professions Bac+5, dans les années 1970 les métiers d’analyste et de programmeur informatique ont commencé à être impactés par l’arrivée des premiers logiciels de calcul automatique et des mainframes. ce sont des postes nécessitant un haut niveau d’études, mais ils ont vu certaines tâches répétitives disparaître. Cela montre que l’automatisation n’a jamais été limitée aux métiers peu qualifiés.
Ou l'’introduction de machines automatisées pour les analyses sanguines ou biochimiques années 80-90 a réduit le rôle manuel des techniciens de laboratoire. Ces postes nécessitaient un niveau Bac+2 à Bac+5 selon la spécialisation, mais des tâches répétitives ont été supprimées, ce qui montre que l’automatisation n’a jamais été réservée aux "métiers peu qualifiés".

Finalement, es ce intéressant de pisser du code ? pas vraiment je trouve. Le vrai rôle d’un ingénieur, c’est de matérialiser les stratégies business et marketing en produits ou services à forte valeur ajoutée.
Jusqu’à aujourd'hui apprendre le code et coder était le moyen de le faire, mais avec l'ia on est aujourd'hui dans de l'hybride, mais le but reste le même.
1  6