IdentifiantMot de passe
Loading...
Mot de passe oublié ?Je m'inscris ! (gratuit)

Vous êtes nouveau sur Developpez.com ? Créez votre compte ou connectez-vous afin de pouvoir participer !

Vous devez avoir un compte Developpez.com et être connecté pour pouvoir participer aux discussions.

Vous n'avez pas encore de compte Developpez.com ? Créez-en un en quelques instants, c'est entièrement gratuit !

Si vous disposez déjà d'un compte et qu'il est bien activé, connectez-vous à l'aide du formulaire ci-dessous.

Identifiez-vous
Identifiant
Mot de passe
Mot de passe oublié ?
Créer un compte

L'inscription est gratuite et ne vous prendra que quelques instants !

Je m'inscris !

Les crawlers IA détruisent-ils les sites web qu'ils exploitent ? Ils mettent les infrastructures à rude épreuve sans contrepartie. Meta et OpenAI en sont les champions
Selon un rapport de Fastly

Le , par Stéphane le calme

260PARTAGES

9  0 
Le web a toujours été un écosystème en évolution constante. Cependant, un nouveau type de trafic automatisé, les robots d'exploration web basés sur l'IA, suscite une inquiétude croissante. Alors que les robots des moteurs de recherche traditionnels (comme Googlebot) opéraient dans une relation symbiotique en échangeant l'indexation contre une augmentation du trafic, leurs homologues de l'IA semblent ne poursuivre qu'un seul objectif : le pillage.

Depuis quelques mois, une inquiétude grandit dans l’écosystème numérique : les crawlers d’intelligence artificielle, ces robots automatisés qui explorent le web à la recherche de données, seraient en train de mettre à genoux des pans entiers d’Internet. Fastly estime aujourd’hui que près d’un tiers du trafic web mondial est généré par des bots, et que la majorité de ce trafic est désormais lié à des robots conçus pour nourrir les grands modèles de langage. Contrairement aux crawlers traditionnels comme Googlebot, qui obéissent encore globalement aux règles établies, les crawlers IA semblent fonctionner sans garde-fous, envoyant des vagues de requêtes massives et souvent impossibles à anticiper.

Pour les propriétaires de sites web, la différence est tangible. Là où un moteur de recherche apportait visibilité et visiteurs, les nouveaux robots d’IA n’apportent rien en retour. Ils extraient des contenus, les absorbent dans les pipelines d’entraînement, et repartent sans jamais générer la moindre visite humaine supplémentaire. Pire, leurs méthodes provoquent parfois des ralentissements, des interruptions de service et des factures d’hébergement qui explosent du jour au lendemain.


Des sites pris d’assaut par des requêtes incontrôlées

Les chiffres donnent le vertige. Certains sites modestes ont vu leurs serveurs crouler sous des dizaines de milliers de requêtes par minute, une charge comparable à une attaque par déni de service distribué. Wikimedia rapporte que, depuis 2024, plus d’un tiers de ses pages vues proviennent de bots, mais que ces mêmes bots génèrent près des deux tiers des requêtes les plus coûteuses en termes de ressources techniques. Ce déséquilibre pèse lourd sur les infrastructures et impose des investissements supplémentaires pour simplement maintenir le service accessible aux humains.

Citation Envoyé par Wikimedia
Notre contenu est gratuit, notre infrastructure ne l’est pas : Établir une utilisation responsable de l’infrastructure.

Fournir un contenu fiable implique également de soutenir un modèle de « connaissance en tant que service », où nous reconnaissons qu’Internet tout entier s’appuie sur le contenu Wikimedia. Mais cela doit se faire de manière durable pour nous : comment pouvons-nous continuer à soutenir notre communauté, tout en limitant la consommation automatique de contenu ? Comment pouvons-nous orienter les développeurs et les réutilisateurs vers des canaux d’accès privilégiés et pris en charge ? De quelles orientations avons-nous besoin pour encourager une réutilisation responsable du contenu ?

Nous avons commencé à travailler à la résolution systémique de ces questions et avons mis l’accent sur la mise en place de moyens durables pour les développeurs et les réutilisateurs d’accéder au contenu de la connaissance au cours du prochain exercice financier de la Fondation. Pour en savoir plus, consultez notre projet de plan annuel : WE5 : Utilisation responsable des infrastructures. Notre contenu est gratuit, mais pas notre infrastructure : nous devons agir dès maintenant pour rétablir un équilibre sain, afin de pouvoir consacrer nos ressources d’ingénierie au soutien et à la priorisation des projets Wikimedia, de nos contributeurs et de l’accès humain à la connaissance.
Les victimes racontent des histoires similaires. Un site de sport a enregistré treize millions de visites issues de bots d’IA, pour seulement quelques centaines de vraies visites humaines. L’écart illustre à quel point ces robots peuvent déséquilibrer un modèle économique déjà fragile, notamment pour les éditeurs qui dépendent de la publicité. Quand les crawlers consomment toute la bande passante et que les utilisateurs ne viennent plus, la rentabilité s’effondre et l’équilibre devient intenable.

Une exploitation à sens unique

Ce qui distingue le plus ces crawlers IA de leurs prédécesseurs, c’est la nature profondément asymétrique de la relation qu’ils instaurent. Google ou Bing justifiaient leur exploration en apportant ensuite un flux d’utilisateurs vers les sites référencés. Les robots d’IA, eux, n’ont pas cette contrepartie. Ils capturent, digèrent et reformulent les contenus dans des réponses instantanées que l’utilisateur n’a plus besoin de vérifier à la source. Dans cet écosystème, le créateur du contenu devient un simple fournisseur anonyme de matière première, sans crédit, sans trafic et sans rémunération.

Pour beaucoup d’éditeurs, c’est un sentiment d’injustice qui domine. Ils investissent du temps, des ressources et de la créativité pour produire des informations, et voient ce travail absorbé sans la moindre rétribution. L’analogie souvent employée est celle d’une exploitation minière : les crawlers creusent, extraient et emportent les richesses, laissant derrière eux un terrain appauvri.


Meta et OpenAI, les pires contrevenants

La grande enseigne des services cloud Fastly a publié un rapport affirmant que les robots d'indexation IA imposent une charge importante au web ouvert, en récupérant des sites à un rythme qui représente 80 % de tout le trafic des robots IA, les 20 % restants étant utilisés par les récupérateurs IA (AI fetchers). Les robots et les récupérateurs peuvent fortement affecter les sites web, en exigeant des données d'un seul site à raison de milliers de requêtes par minute.

Selon le rapport, la division IA de Meta, propriétaire de Facebook, représente plus de la moitié de ces robots d'indexation, tandis qu'OpenAI représente la grande majorité des requêtes de récupération à la demande.

« Les robots IA sont en train de...
La fin de cet article est réservée aux abonnés. Soutenez le Club Developpez.com en prenant un abonnement pour que nous puissions continuer à vous proposer des publications.

Une erreur dans cette actualité ? Signalez-nous-la !