La fondation Wikimedia a annoncé que le scraping incessant de l'IA mettait à rude épreuve les serveurs de Wikipédia. Des robots automatisés à la recherche de données d'entraînement de modèles d'IA pour des LLM ont aspiré des téraoctets de données, augmentant de 50 % la bande passante utilisée par la fondation pour télécharger des contenus multimédias depuis janvier 2024. Cette croissance exponentielle du trafic non humain a imposé des coûts techniques et financiers considérables, souvent sans l'attribution qui aide à soutenir l'écosystème bénévole de Wikimedia.La prolifération des robots d'IA avides de données et leurs pratiques d'exploration agressives soulèvent des défis majeurs pour les projets open source, déjà fragilisés par des ressources limitées. Les mesures défensives traditionnelles, comme le fichier robots.txt, s'avèrent inefficaces face à des robots d'indexations qui usurpent les agents utilisateurs, ignorent les restrictions ou exploitent des proxys résidentiels. Des solutions alternatives émergent, comme les systèmes de preuve de travail ou les pièges à contenu trompeur, mais elles présentent des inconvénients, notamment pour l'accessibilité ou l'expérience utilisateur.
Récemment, un rapport de la Fondation Wikimedia a révélé que les robots d'exploration du web (crawlers) qui collectent des données d'entraînement pour les modèles d'IA submergent l'infrastructure de Wikipédia, le trafic des robots augmentant de manière exponentielle depuis le début de 2024. Selon des données publiées le 1er avril, la bande passante pour les contenus multimédias a augmenté de 50 % depuis janvier, principalement en raison des programmes automatisés qui récupèrent les 144 millions de fichiers multimédias sous licence libre de Wikimedia Commons.
Ce trafic sans précédent pose des problèmes opérationnels à l'organisation à but non lucratif. Lors du décès de Jimmy Carter en décembre 2024, sa page Wikipédia a été consultée 2,8 millions de fois en une journée, tandis qu'une vidéo d'une heure et demie de son débat présidentiel de 1980 a fait doubler le trafic sur le réseau, ce qui a entraîné des lenteurs de chargement pour certains utilisateurs.
L'analyse montre que 65 % du trafic le plus gourmand en ressources de la fondation provient de bots, alors que ces derniers ne représentent que 35 % du nombre total de pages consultées. L'équipe chargée de la fiabilité du site de la fondation bloque désormais systématiquement le trafic des robots d'indexation afin d'éviter toute interruption de service. "Notre contenu est gratuit, notre infrastructure ne l'est pas", a déclaré la fondation en annonçant son intention d'établir des limites durables pour la consommation automatisée de contenu.
Fait intéressant, en janvier 2025, un incident similaire s'est produit. Le site de Triplegangers, une petite entreprise spécialisée dans la vente de modèles 3D de « doubles numériques humains », a été gravement perturbé par un bot d’OpenAI qui a effectué un scraping agressif sur ses pages. Ce bot a généré une quantité massive de requêtes, affectant la performance du site et provoquant des interruptions similaires à celles observées lors d’attaques par déni de service distribué (DDoS). Ces différents évènements soulèvent des préoccupations sur la question de la gestion du scraping et du crawling des bots des entreprises d'IA.
Voici le rapport de la Fondation Wikimedia :
Comment les robots d’exploration impactent les opérations des projets Wikimedia
Depuis début 2024, la demande pour le contenu créé par la communauté de bénévoles de Wikimedia – notamment pour les 144 millions d’images, vidéos et autres fichiers sur Wikimedia Commons – a considérablement augmenté. Voici les raisons de cette tendance et son impact.
Les projets Wikimedia constituent la plus grande collection de connaissances ouvertes au monde. Les sites Wikimedia représentent une destination précieuse pour les personnes en quête d’information et pour toutes sortes d’entreprises qui accèdent automatiquement aux contenus comme élément clé de leurs produits. Plus particulièrement, le contenu a toujours été un élément essentiel des résultats des moteurs de recherche, ce qui a incité les utilisateurs à revenir sur ces sites. Mais avec l’essor de l’IA, la dynamique est en train de changer : on observe une augmentation significative du volume de requêtes, la majeure partie de ce trafic étant générée par des robots de scraping qui collectent des données d’entraînement pour les grands modèles de langage (LLM) et d’autres cas d’utilisation. Les requêtes automatisées pour le contenu des sites de Wikimedia ont connu une croissance exponentielle, parallèlement à l’économie technologique au sens large, via des mécanismes tels que le scraping, les API et les téléchargements groupés. Cette expansion s’est produite en grande partie sans attribution suffisante, pourtant essentielle pour inciter de nouveaux utilisateurs à participer au mouvement, et elle pèse...
La fin de cet article est réservée aux abonnés. Soutenez le Club Developpez.com en prenant un abonnement pour que nous puissions continuer à vous proposer des publications.