IdentifiantMot de passe
Loading...
Mot de passe oublié ?Je m'inscris ! (gratuit)

Vous êtes nouveau sur Developpez.com ? Créez votre compte ou connectez-vous afin de pouvoir participer !

Vous devez avoir un compte Developpez.com et être connecté pour pouvoir participer aux discussions.

Vous n'avez pas encore de compte Developpez.com ? Créez-en un en quelques instants, c'est entièrement gratuit !

Si vous disposez déjà d'un compte et qu'il est bien activé, connectez-vous à l'aide du formulaire ci-dessous.

Identifiez-vous
Identifiant
Mot de passe
Mot de passe oublié ?
Créer un compte

L'inscription est gratuite et ne vous prendra que quelques instants !

Je m'inscris !

Les crawlers IA détruisent-ils les sites web qu'ils exploitent ? Ils mettent les infrastructures à rude épreuve sans contrepartie. Meta et OpenAI en sont les champions
Selon un rapport de Fastly

Le , par Stéphane le calme

5PARTAGES

9  0 
Les crawlers IA détruisent-ils les sites web qu’ils exploitent ? Ils mettent les infrastructures à rude épreuve sans contrepartie,
Meta et OpenAI en sont les champions, selon un rapport de Fastly

Le web a toujours été un écosystème en évolution constante. Cependant, un nouveau type de trafic automatisé, les robots d'exploration web basés sur l'IA, suscite une inquiétude croissante. Alors que les robots des moteurs de recherche traditionnels (comme Googlebot) opéraient dans une relation symbiotique en échangeant l'indexation contre une augmentation du trafic, leurs homologues de l'IA semblent ne poursuivre qu'un seul objectif : le pillage.

Depuis quelques mois, une inquiétude grandit dans l’écosystème numérique : les crawlers d’intelligence artificielle, ces robots automatisés qui explorent le web à la recherche de données, seraient en train de mettre à genoux des pans entiers d’Internet. Fastly estime aujourd’hui que près d’un tiers du trafic web mondial est généré par des bots, et que la majorité de ce trafic est désormais lié à des robots conçus pour nourrir les grands modèles de langage. Contrairement aux crawlers traditionnels comme Googlebot, qui obéissent encore globalement aux règles établies, les crawlers IA semblent fonctionner sans garde-fous, envoyant des vagues de requêtes massives et souvent impossibles à anticiper.

Pour les propriétaires de sites web, la différence est tangible. Là où un moteur de recherche apportait visibilité et visiteurs, les nouveaux robots d’IA n’apportent rien en retour. Ils extraient des contenus, les absorbent dans les pipelines d’entraînement, et repartent sans jamais générer la moindre visite humaine supplémentaire. Pire, leurs méthodes provoquent parfois des ralentissements, des interruptions de service et des factures d’hébergement qui explosent du jour au lendemain.


Des sites pris d’assaut par des requêtes incontrôlées

Les chiffres donnent le vertige. Certains sites modestes ont vu leurs serveurs crouler sous des dizaines de milliers de requêtes par minute, une charge comparable à une attaque par déni de service distribué. Wikimedia rapporte que, depuis 2024, plus d’un tiers de ses pages vues proviennent de bots, mais que ces mêmes bots génèrent près des deux tiers des requêtes les plus coûteuses en termes de ressources techniques. Ce déséquilibre pèse lourd sur les infrastructures et impose des investissements supplémentaires pour simplement maintenir le service accessible aux humains.

Citation Envoyé par Wikimedia
Notre contenu est gratuit, notre infrastructure ne l’est pas : Établir une utilisation responsable de l’infrastructure.

Fournir un contenu fiable implique également de soutenir un modèle de « connaissance en tant que service », où nous reconnaissons qu’Internet tout entier s’appuie sur le contenu Wikimedia. Mais cela doit se faire de manière durable pour nous : comment pouvons-nous continuer à soutenir notre communauté, tout en limitant la consommation automatique de contenu ? Comment pouvons-nous orienter les développeurs et les réutilisateurs vers des canaux d’accès privilégiés et pris en charge ? De quelles orientations avons-nous besoin pour encourager une réutilisation responsable du contenu ?

Nous avons commencé à travailler à la résolution systémique de ces questions et avons mis l’accent sur la mise en place de moyens durables pour les développeurs et les réutilisateurs d’accéder au contenu de la connaissance au cours du prochain exercice financier de la Fondation. Pour en savoir plus, consultez notre projet de plan annuel : WE5 : Utilisation responsable des infrastructures. Notre contenu est gratuit, mais pas notre infrastructure : nous devons agir dès maintenant pour rétablir un équilibre sain, afin de pouvoir consacrer nos ressources d’ingénierie au soutien et à la priorisation des projets Wikimedia, de nos contributeurs et de l’accès humain à la connaissance.
Les victimes racontent des histoires similaires. Un site de sport a enregistré treize millions de visites issues de bots d’IA, pour seulement quelques centaines de vraies visites humaines. L’écart illustre à quel point ces robots peuvent déséquilibrer un modèle économique déjà fragile, notamment pour les éditeurs qui dépendent de la publicité. Quand les crawlers consomment toute la bande passante et que les utilisateurs ne viennent plus, la rentabilité s’effondre et l’équilibre devient intenable.

Une exploitation à sens unique

Ce qui distingue le plus ces crawlers IA de leurs prédécesseurs, c’est la nature profondément asymétrique de la relation qu’ils instaurent. Google ou Bing justifiaient leur exploration en apportant ensuite un flux d’utilisateurs vers les sites référencés. Les robots d’IA, eux, n’ont pas cette contrepartie. Ils capturent, digèrent et reformulent les contenus dans des réponses instantanées que l’utilisateur n’a plus besoin de vérifier à la source. Dans cet écosystème, le créateur du contenu devient un simple fournisseur anonyme de matière première, sans crédit, sans trafic et sans rémunération.

Pour beaucoup d’éditeurs, c’est un sentiment d’injustice qui domine. Ils investissent du temps, des ressources et de la créativité pour produire des informations, et voient ce travail absorbé sans la moindre rétribution. L’analogie souvent employée est celle d’une exploitation minière : les crawlers creusent, extraient et emportent les richesses, laissant derrière eux un terrain appauvri.


Meta et OpenAI, les pires contrevenants

La grande enseigne des services cloud Fastly a publié un rapport affirmant que les robots d'indexation IA imposent une charge importante au web ouvert, en récupérant des sites à un rythme qui représente 80 % de tout le trafic des robots IA, les 20 % restants étant utilisés par les récupérateurs IA (AI fetchers). Les robots et les récupérateurs peuvent fortement affecter les sites web, en exigeant des données d'un seul site à raison de milliers de requêtes par minute.

Selon le rapport, la division IA de Meta, propriétaire de Facebook, représente plus de la moitié de ces robots d'indexation, tandis qu'OpenAI représente la grande majorité des requêtes de récupération à la demande.

« Les robots IA sont en train de transformer la manière dont nous accédons à Internet et l'utilisons, introduisant ainsi de nouvelles complexités pour les plateformes numériques », a déclaré Arun Kumar, chercheur senior en sécurité chez Fastly, dans un communiqué publié à l'occasion de la publication du rapport. « Qu'ils soient utilisés pour collecter des données d'entraînement ou pour fournir des réponses en temps réel, ces robots créent de nouveaux défis en matière de visibilité, de contrôle et de coût. On ne peut pas sécuriser ce qu'on ne voit pas, et sans normes de vérification claires, les risques liés à l'automatisation basée sur l'IA deviennent un angle mort pour les équipes numériques. »

Le rapport de l'entreprise s'appuie sur l'analyse du pare-feu d'application web de nouvelle génération (NGWAF) et des services de gestion des bots de Fastly, qui, selon l'entreprise, « protègent plus de 130 000 applications et API et inspectent plus de 6 500 milliards de requêtes par mois », ce qui lui fournit une multitude de données à exploiter. Les données révèlent un problème croissant : l'augmentation de la charge des sites web ne provient pas des visiteurs humains, mais des robots d'indexation et de récupération automatisés qui travaillent pour le compte des entreprises de chatbots.

Le rapport avertit : « Certains robots IA, s'ils ne sont pas conçus avec soin, peuvent involontairement imposer une charge insoutenable aux serveurs web », prévient le rapport de Fastly, « entraînant une dégradation des performances, une interruption du service et une augmentation des coûts opérationnels ». Kumar a ajouté : « Il est clair que cette croissance n'est pas durable, car elle crée des défis opérationnels tout en sapant le modèle économique des créateurs de contenu. En tant qu'industrie, nous devons faire davantage pour établir des normes et des standards responsables en matière de crawling, qui permettent aux entreprises d'IA d'obtenir les données dont elles ont besoin tout en respectant les directives relatives au contenu des sites web. »

Cette augmentation du trafic provient uniquement de quelques entreprises sélectionnées. Meta représentait à elle seule plus de la moitié du trafic des crawlers IA, avec 52 %, suivie par Google et OpenAI avec respectivement 23 % et 20 %. Ce trio contrôle donc 95 % de l'ensemble du trafic des robots d'indexation IA. Anthropic, en revanche, ne représentait que 3,76 % du trafic des robots d'indexation. Le projet Common Crawl, qui récupère des sites web pour les inclure dans un ensemble de données publiques gratuites conçu pour éviter la duplication des efforts et la multiplication du trafic au cœur du problème des robots d'indexation, représentait un pourcentage étonnamment faible de 0,21 %.

La situation est différente en ce qui concerne les récupérateurs d'IA qui, contrairement aux robots d'indexation, sont lancés à la demande lorsqu'un utilisateur demande à un modèle d'intégrer des informations plus récentes que sa date limite de formation. Ici, OpenAI était de loin la source de trafic dominante, selon Fastly, représentant près de 98 % de toutes les demandes. Cela montre peut-être à quel point l'entrée précoce d'OpenAI sur le marché des chatbots IA destinés aux consommateurs avec ChatGPT a donné une longueur d'avance à l'entreprise, ou simplement que l'infrastructure des bots de l'entreprise a besoin d'être optimisée.

Bien que les récupérateurs d'IA ne représentent qu'une minorité des demandes de bots IA (environ 20 % seulement, selon Kumar), ils peuvent être à l'origine d'énormes pics de trafic, un seul récupérateur générant plus de 39 000 demandes par minute pendant la période de test. « Nous prévoyons une augmentation du trafic des récupérateurs à mesure que les outils d'IA se généralisent et que de plus en plus d'outils agentifs sont utilisés pour faciliter l'interaction entre les personnes et les sites web », a déclaré Kumar.


Les premières contre-offensives techniques

Face à cette situation, les réponses se multiplient. Certains éditeurs tentent de renforcer les barrières techniques, en s’appuyant sur des outils de filtrage ou de détection des comportements anormaux. D’autres misent sur des solutions plus radicales, comme des systèmes de « proof-of-work » qui exigent du crawler un effort computationnel avant de délivrer une page. Mais l’efficacité reste relative : les crawlers d’IA ignorent de plus en plus souvent les consignes de robots.txt, et certains vont jusqu’à exploiter ces fichiers comme des cartes indiquant où se trouvent les contenus les plus précieux.

Des acteurs comme Cloudflare expérimentent de nouvelles stratégies en proposant des « AI paywalls », c’est-à-dire des barrières réservées aux robots d’IA, que l’on ne franchit qu’après autorisation ou contre rémunération. L’idée est d’inverser la logique : si les modèles ont besoin d’ingérer des contenus de qualité, alors ils doivent en payer l’accès. Reste que ce système est encore balbutiant, difficile à appliquer uniformément, et surtout vulnérable aux bots déguisés qui contournent les blocages.

Le champ de bataille juridique et économique

Au-delà des solutions techniques, le conflit se déplace aussi vers le terrain légal et économique. Plusieurs médias et plateformes négocient des accords de licence avec les géants de l’IA, espérant transformer ce pillage en partenariat rémunérateur. D’autres optent pour une voie plus offensive, en déposant des recours juridiques contre ce qu’ils considèrent comme une violation flagrante du droit d’auteur et une atteinte à leurs intérêts commerciaux. Reddit, Reuters, le New York Times et d’autres acteurs majeurs ont déjà ouvert la danse, cherchant à établir un précédent qui protégerait leurs contenus.

Cette confrontation est en réalité un bras de fer autour de la valeur des données. Les entreprises d’IA affirment avoir besoin d’énormes corpus pour améliorer leurs modèles, tandis que les éditeurs exigent reconnaissance et compensation. Entre les deux, c’est l’avenir même du web qui se joue : restera-t-il un espace où les créateurs trouvent un intérêt à publier, ou deviendra-t-il une simple base d’entraînement pour des intelligences artificielles qui concentrent toute l’attention des utilisateurs ?

Un futur incertain pour le web ouvert

Le débat dépasse la simple question technique. Ce qui est en jeu, c’est la viabilité du web tel que nous le connaissons. Si les crawlers d’IA continuent à siphonner les contenus sans rétribution, beaucoup de sites, en particulier les plus petits, n’auront plus les moyens de survivre. À terme, le risque est réel : voir disparaître une partie de la diversité et de la richesse qui font d’Internet un espace vivant.

Certains imaginent déjà un futur où la majorité des sites seront fermés par défaut aux crawlers IA, ne laissant passer que ceux qui respectent des conditions strictes ou qui paient pour l’accès. D’autres misent sur des régulations étatiques pour rétablir un équilibre entre producteurs et exploitants de données. Mais il reste une incertitude majeure : les géants de l’IA, qui disposent de moyens techniques et financiers colossaux, accepteront-ils de jouer ce jeu ou chercheront-ils à maintenir la logique d’extraction gratuite qui leur profite tant ?

Conclusion : survivre à l’ère des crawlers IA

Les crawlers d’intelligence artificielle ne détruisent pas volontairement le web, mais leur impact cumulé est destructeur. Ils fragilisent des infrastructures, asphyxient des modèles économiques et installent une dynamique où la valeur se concentre du côté des acteurs de l’IA, laissant les éditeurs exsangues. Le dilemme est clair : soit le web parvient à inventer de nouvelles règles de partage et de rétribution, soit il risque de s’effondrer sous le poids d’une exploitation unilatérale.

L’avenir d’Internet dépendra donc de la capacité collective à redéfinir les termes de cet échange. Car sans créateurs de contenus, il n’y aura plus rien à entraîner. Et si les crawlers continuent leur course effrénée, c’est peut-être le web lui-même qui finira vidé de sa substance.

Source : rapport de Fastly

Et vous ?

Les crawlers d’IA doivent-ils être considérés comme une nouvelle forme de cyberattaque involontaire ou simplement comme une évolution naturelle d’Internet ?

Comment concilier la nécessité d’entraîner des modèles performants avec le respect des éditeurs qui produisent les contenus ?

Faut-il instaurer une réglementation internationale encadrant l’accès des IA aux données publiques du web ?

Les initiatives techniques comme les paywalls « anti-IA » ou les systèmes de filtrage sont-elles viables à long terme, ou risquent-elles d’accélérer la fragmentation du web ?

Le web peut-il survivre si les contenus deviennent principalement une matière première invisible pour les IA, sans trafic humain associé ?

Les éditeurs doivent-ils adopter une stratégie collective pour négocier avec les géants de l’IA, ou chacun doit-il défendre seul ses intérêts ?

L’avenir sera-t-il celui d’un Internet payant pour les machines, et gratuit pour les humains ?
Vous avez lu gratuitement 4 575 articles depuis plus d'un an.
Soutenez le club developpez.com en souscrivant un abonnement pour que nous puissions continuer à vous proposer des publications.

Une erreur dans cette actualité ? Signalez-nous-la !