
Pourtant, les discussions autour de ces enjeux révèlent des tensions plus profondes. D'un côté, les entreprises d'IA, accusées de prédation, semblent privilégier la collecte massive de données au détriment de la viabilité des infrastructures qu'elles exploitent. De l'autre, la communauté open source, en manque de leviers juridiques ou techniques, se retrouve contrainte à des mesures radicales (blocages géographiques, challenges computationnels). Certains suggèrent même d'empoisonner volontairement les données des crawlers, une approche certes créative mais potentiellement problématique sur le plan éthique et légal.
Ces stratégies reflètent une course aux armements inégale, où l'asymétrie des ressources entre les géants de l'IA et les mainteneurs open source aggrave les risques pour l'écosystème numérique. Si des initiatives collaboratives comme ai.robots.txt tentent d'apporter des réponses structurelles, l'absence d'engagement clair des acteurs industriels et de régulation adaptée laisse présager une escalade destructrice. L'enjeu dépasse la simple bande passante : il questionne la pérennité d'un internet ouvert, où le respect mutuel entre humains et machines semble se dissoudre dans l'urgence de l'innovation.
Le fichier robots.txt : régulateur des bots sur le web
Un fichier robots.txt constitue un ensemble d'instructions destinées aux bots, intégré aux sources de la majorité des sites web. Ces fichiers servent principalement à encadrer l'activité des bots bienveillants, notamment les robots d'indexation, les bots malveillants ayant tendance à ignorer ces directives.
Cette mécanique peut s'apparenter à un panneau "Règlement intérieur" dans un espace public : bien qu'incapable d'imposer physiquement son respect, il sera suivi par les usagers de bonne foi tandis que les autres s'exposeront à des sanctions. Techniquement, un bot représente un programme automatisé interagissant avec les sites web. On distingue deux catégories :
- Les bots bénéfiques, comme les robots d'indexation qui parcourent le web pour référencer le contenu dans les moteurs de recherche
- Les bots malveillants, conçus pour des activités nuisibles
Le fichier robots.txt permet notamment de :
- réguler l'activité des robots d'indexation ;
- prévenir la surcharge des serveurs web ;
- restreindre l'indexation des pages non destinées au public
Cette solution technique, bien que perfectible, reste essentielle pour maintenir un équilibre entre visibilité et contrôle dans l'écosystème web.
IA contre open source : la course aux armements qui menace l'internet libre
Le développeur Xe Iaso a été confronté à une crise majeure lorsque les robots d'indexation d'Amazon ont submergé son dépôt Git, provoquant des interruptions répétées de service. Malgré l'implémentation des protections standards comme la modification du fichier robots.txt, le blocage des agents utilisateurs connus et le filtrage des adresses IP suspectes, les crawlers d'IA ont continué à contourner ces mesures en utilisant des proxys résidentiels et en falsifiant leurs identifiants. Face à cette situation, Iaso a finalement opté pour une solution drastique en déployant son serveur derrière un VPN et en développant « Anubis », un système imposant aux visiteurs de résoudre un problème de calcul avant d'accéder au contenu. Dans un billet de blog intitulé « Un appel à l'aide désespéré », il a souligné l'inutilité des méthodes traditionnelles de blocage face à des robots qui masquent constamment leur origine et modifient leur comportement.
Ce cas illustre une problématique plus large affectant la communauté open source, où certains projets voient jusqu'à 97 % de leur trafic provenir de robots d'entreprises d'IA, selon un rapport de LibreNews. Cette situation équivaut à une attaque DDoS persistante, entraînant des surcoûts importants en bande passante, une instabilité des services et une pression accrue sur des mainteneurs déjà sursollicités. Plusieurs projets ont adopté des mesures extrêmes : Fedora Pagure a bloqué tout le trafic en provenance du Brésil, GNOME GitLab a implémenté le système Anubis avec des résultats montrant que 96,8% des requêtes étaient automatisées, et KDE a subi des interruptions de service causées par des crawleurs associés à Alibaba.

En decembre 2024, deux familles ont engagé des poursuites contre Character.ai, considérant que ses services de chatbot présentent « un danger manifeste pour la jeunesse ». Selon la plainte, l'IA de l'entreprise "favoriserait la violence" et pourrait pousser des jeunes vers des actes irréversibles. Parmi les cas rapportés figurent des conversations où un chatbot aurait non seulement banalisé l'automutilation en affirmant que « ça fait du bien », mais aurait également présenté le meurtre parental comme « une réponse justifiée » à des limitations de temps passé devant les écrans. Ces échanges préoccupants mettent en lumière les potentielles défaillances des systèmes de protection censés encadrer ces interactions.
Cette crise met en lumière un déséquilibre croissant entre les besoins des entreprises d'IA en données et la capacité des projets open source à supporter cette pression, conduisant à une escalade de mesures défensives qui, bien que nécessaires, compliquent l'accès aux ressources pour les utilisateurs légitimes et alourdissent la charge des mainteneurs.
Origines et motivations derrière le scraping intensif des IA
Une culture du take first, ask never semble bien ancrée chez les géants de l'IA. Bien avant l'ère ChatGPT, le secteur collectait déjà massivement des données sans se préoccuper de leur provenance ni des droits associés. Aujourd'hui, si la plupart des entreprises pratiquent le scraping web, leurs méthodes et leur impact varient considérablement. Les logs de Diaspora analysés par Dennis Schubert révèlent une répartition éloquente :
- 25 % du trafic provenait de bots OpenAI ;
- 15 % d'Amazon ;
- 4,3 % d'Anthropic.
Trois motivations principales émergent :
- Alimentation des modèles (collecte de données d'entraînement)
- Mises à jour en temps réel (pour les assistants IA)
- Rafraîchissement périodique des connaissances
Cette dernière hypothèse est corroborée par le comportement obsessionnel des crawlers : « Ils ne se contentent pas d'un passage unique, mais reviennent systématiquement toutes les 6 heures », note Schubert avec ironie.
- Les acteurs occidentaux (OpenAI, Anthropic) utilisent généralement des user-agents identifiables ;
- Certaines entreprises chinoises (comme Alibaba) emploient des méthodes plus opaques.
Particulièrement agressifs, les crawlers d'Alibaba ont paralysé GitLab de KDE, tandis qu'Amazon a saturé les serveurs de Xe Iaso. Reste une énigme : pourquoi ces entreprises persistent-elles dans des pratiques aussi invasives plutôt que d'établir des protocoles collaboratifs ? Aucun commentaire n'a été obtenu auprès d'Amazon, OpenAI, Anthropic ou Meta à ce jour.
La guerre silencieuse du web contre les robots prédateurs
La communauté technologique a développé plusieurs approches pour contrer le scraping intensif des IA. D'un côté, des outils comme Nepenthes adoptent une logique offensive : ce système, conçu par un développeur anonyme nommé Aaron, piège les robots dans des labyrinthes de faux contenus, augmentant délibérément leurs coûts opérationnels et corrompant leurs bases de données. "Chaque requête inutile grève leur budget", explique-t-il, soulignant la vulnérabilité financière de ces entreprises. De l'autre, des solutions plus conventionnelles comme AI Labyrinth de Cloudflare proposent une défense commerciale, détournant les crawlers vers des pages leurres sans bloquer complètement l'accès.
En parallèle, des initiatives communautaires tentent d'organiser une résistance collective. Le projet ai.robots.txt centralise les informations sur les robots malveillants et fournit des configurations prêtes à l'emploi pour les fichiers de restriction. Cette approche collaborative contraste avec l'isolement dans lequel opèrent la plupart des administrateurs système confrontés à ces attaques. Pourtant, malgré ces efforts, l'équilibre reste précaire : chaque nouvelle mesure défensive semble provoquer une adaptation des crawlers, dans une escalade technologique sans fin.
Cette situation crée un paradoxe inquiétant. Les modèles d'IA dépendent fondamentalement de l'accès à des données ouvertes et diversifiées, mais leurs méthodes de collecte menacent précisément l'existence même de ces ressources. Les serveurs open source, conçus pour le partage de connaissances, se retrouvent paradoxalement victimes de leur propre philosophie d'ouverture. Sans mécanismes de régulation ou de compensation, cette dynamique extractive risque à terme de tarir la source même qui alimente l'innovation en IA.
L'absence de dialogue constructif avec les grandes entreprises du secteur aggrave la crise. Alors que des...
La fin de cet article est réservée aux abonnés. Soutenez le Club Developpez.com en prenant un abonnement pour que nous puissions continuer à vous proposer des publications.