Wikimedia est submergé par le trafic des robots d'IA, les crawlers consommant 65 % des ressources

Afin de collecter des données d'entraînement pour les modèles d'IA

Le 6 avril 2025 à 20:26, par Jade Emy

54PARTAGES

La fondation Wikimedia a annoncé que le scraping incessant de l'IA mettait à rude épreuve les serveurs de Wikipédia. Des robots automatisés à la recherche de données d'entraînement de modèles d'IA pour des LLM ont aspiré des téraoctets de données, augmentant de 50 % la bande passante utilisée par la fondation pour télécharger des contenus multimédias depuis janvier 2024. Cette croissance exponentielle du trafic non humain a imposé des coûts techniques et financiers considérables, souvent sans l'attribution qui aide à soutenir l'écosystème bénévole de Wikimedia.

La prolifération des robots d'IA avides de données et leurs pratiques d'exploration agressives soulèvent des défis majeurs pour les projets open source, déjà fragilisés par des ressources limitées. Les mesures défensives traditionnelles, comme le fichier robots.txt, s'avèrent inefficaces face à des robots d'indexations qui usurpent les agents utilisateurs, ignorent les restrictions ou exploitent des proxys résidentiels. Des solutions alternatives émergent, comme les systèmes de preuve de travail ou les pièges à contenu trompeur, mais elles présentent des inconvénients, notamment pour l'accessibilité ou l'expérience utilisateur.

Récemment, un rapport de la Fondation Wikimedia a révélé que les robots d'exploration du web (crawlers) qui collectent des données d'entraînement pour les modèles d'IA submergent l'infrastructure de Wikipédia, le trafic des robots augmentant de manière exponentielle depuis le début de 2024. Selon des données publiées le 1er avril, la bande passante pour les contenus multimédias a augmenté de 50 % depuis janvier, principalement en raison des programmes automatisés qui récupèrent les 144 millions de fichiers multimédias sous licence libre de Wikimedia Commons.

Ce trafic sans précédent pose des problèmes opérationnels à l'organisation à but non lucratif. Lors du décès de Jimmy Carter en décembre 2024, sa page Wikipédia a été consultée 2,8 millions de fois en une journée, tandis qu'une vidéo d'une heure et demie de son débat présidentiel de 1980 a fait doubler le trafic sur le réseau, ce qui a entraîné des lenteurs de chargement pour certains utilisateurs.

L'analyse montre que 65 % du trafic le plus gourmand en ressources de la fondation provient de bots, alors que ces derniers ne représentent que 35 % du nombre total de pages consultées. L'équipe chargée de la fiabilité du site de la fondation bloque désormais systématiquement le trafic des robots d'indexation afin d'éviter toute interruption de service. "Notre contenu est gratuit, notre infrastructure ne l'est pas", a déclaré la fondation en annonçant son intention d'établir des limites durables pour la consommation automatisée de contenu.

Fait intéressant, en janvier 2025, un incident similaire s'est produit. Le site de Triplegangers, une petite entreprise spécialisée dans la vente de modèles 3D de « doubles numériques humains », a été gravement perturbé par un bot d’OpenAI qui a effectué un scraping agressif sur ses pages. Ce bot a généré une quantité massive de requêtes, affectant la performance du site et provoquant des interruptions similaires à celles observées lors d’attaques par déni de service distribué (DDoS). Ces différents évènements soulèvent des préoccupations sur la question de la gestion du scraping et du crawling des bots des entreprises d'IA.

Voici le rapport de la Fondation Wikimedia :

Comment les robots d’exploration impactent les opérations des projets Wikimedia

Depuis début 2024, la demande pour le contenu créé par la communauté de bénévoles de Wikimedia – notamment pour les 144 millions d’images, vidéos et autres fichiers sur Wikimedia Commons – a considérablement augmenté. Voici les raisons de cette tendance et son impact.

Les projets Wikimedia constituent la plus grande collection de connaissances ouvertes au monde. Les sites Wikimedia représentent une destination précieuse pour les personnes en quête d’information et pour toutes sortes d’entreprises qui accèdent automatiquement aux contenus comme élément clé de leurs produits. Plus particulièrement, le contenu a toujours été un élément essentiel des résultats des moteurs de recherche, ce qui a incité les utilisateurs à revenir sur ces sites. Mais avec l’essor de l’IA, la dynamique est en train de changer : on observe une augmentation significative du volume de requêtes, la majeure partie de ce trafic étant générée par des robots de scraping qui collectent des données d’entraînement pour les grands modèles de langage (LLM) et d’autres cas d’utilisation. Les requêtes automatisées pour le contenu des sites de Wikimedia ont connu une croissance exponentielle, parallèlement à l’économie technologique au sens large, via des mécanismes tels que le scraping, les API et les téléchargements groupés. Cette expansion s’est produite en grande partie sans attribution suffisante, pourtant essentielle pour inciter de nouveaux utilisateurs à participer au mouvement, et elle pèse lourdement sur l’infrastructure sous-jacente qui maintient les sites accessibles à tous.

Un regard dans les coulisses : l’affaire Jimmy Carter

À la mort de Jimmy Carter en décembre 2024, sa page sur Wikipédia en anglais a enregistré plus de 2,8 millions de vues en une journée. Un chiffre relativement élevé, mais gérable. Au même moment, de nombreux utilisateurs ont visionné une vidéo d’une heure et demie du débat présidentiel de Carter avec Ronald Reagan en 1980. Cela a provoqué une augmentation du trafic réseau, doublant son débit normal. En conséquence, pendant environ une heure, quelques connexions de Wikimedia à Internet ont été entièrement saturées, ralentissant le chargement des pages pour certains utilisateurs. Cette soudaine augmentation de trafic a alerté notre équipe de fiabilité du site , qui a rapidement réagi en modifiant les chemins empruntés par nos connexions Internet afin de réduire la congestion. Cela n’aurait néanmoins pas dû poser de problème, la Fondation étant parfaitement équipée pour gérer les pics de trafic lors d’événements exceptionnels. Que s’est-il donc passé ?

Depuis janvier 2024, la bande passante utilisée pour le téléchargement de contenu multimédia a augmenté de 50 %. Cette augmentation ne provient pas des lecteurs humains, mais en grande partie des programmes automatisés qui extraient le catalogue d’images sous licence libre de Wikimedia Commons pour alimenter les modèles d’IA. L'infrastructure est conçue pour supporter des pics de trafic humains soudains lors d’événements à fort intérêt, mais le volume de trafic généré par les robots d’extraction est sans précédent et présente des risques et des coûts croissants.

Le graphique ci-dessous montre que la demande de bande passante de base pour le contenu multimédia est en constante augmentation depuis début 2024, et rien ne laisse présager un ralentissement. Cette augmentation de l’utilisation de base signifie que les sites wikimedia disposent de moins de marge de manœuvre pour gérer des événements exceptionnels susceptibles de provoquer une augmentation du trafic : une part importante du temps et des ressources est consacrée à la gestion du trafic non humain.

65 % du trafic le plus cher provient des robots.

La Fondation Wikimedia diffuse du contenu à ses utilisateurs via un réseau mondial de centres de données . Cela permet d’offrir une expérience plus rapide et plus fluide aux lecteurs du monde entier. Lorsqu’un article est demandé plusieurs fois, il est mémorisé (ou le mis en cache) dans le centre de données le plus proche de l’utilisateur. Si un article n’a pas été demandé depuis un certain temps, son contenu doit être diffusé depuis le centre de données principal. La requête « voyage » ensuite de l’emplacement de l’utilisateur jusqu’au centre de données principal, recherche la page demandée et la renvoie à l’utilisateur, tout en la mettant en cache dans le centre de données régional pour les utilisateurs suivants.

Alors que les lecteurs humains ont tendance à se concentrer sur des sujets spécifiques, souvent similaires, les robots d’exploration ont tendance à « lire en masse » un plus grand nombre de pages et à visiter également les pages les moins populaires. Cela signifie que ces types de requêtes sont plus susceptibles d’être transmises au centre de données principal, ce qui augmente considérablement la consommation des ressources.

Lors de la migration des systèmes, la Fondation Wikimedia a constaté que seule une fraction du trafic coûteux transitant par les principaux centres de données se comportait comme le font habituellement les navigateurs web, c’est-à-dire interprétant le code JavaScript. En y regardant de plus près, ils ont découvert qu’au moins 65 % de ce trafic gourmand en ressources pour le site web provenait de robots, une proportion disproportionnée compte tenu du nombre total de pages vues par ces derniers, qui représente environ 35 % du total. Cette utilisation intensive perturbe également constamment l'équipe chargée de la fiabilité du site, qui doit bloquer le trafic excessif provenant de ces robots...

La fin de cet article est réservée aux abonnés. Soutenez le Club Developpez.com en prenant un abonnement pour que nous puissions continuer à vous proposer des publications.

Une erreur dans cette actualité ? Signalez-nous-la !

Votre nom : Votre e-mail :

Décrivez l'erreur que vous souhaitez porter à notre connaissance :

Identifiez-vous

Créer un compte

Wikimedia est submergé par le trafic des robots d'IA, les crawlers consommant 65 % des ressources

Afin de collecter des données d'entraînement pour les modèles d'IA

Identifiant
Mot de passe

Mot de passe oublié ?

Identifiez-vous

Créer un compte

Wikimedia est submergé par le trafic des robots d'IA, les crawlers consommant 65 % des ressources Afin de collecter des données d'entraînement pour les modèles d'IA

Wikimedia est submergé par le trafic des robots d'IA, les crawlers consommant 65 % des ressources

Afin de collecter des données d'entraînement pour les modèles d'IA