Bien que ces fichiers aient traditionnellement été efficaces pour bloquer l'accès aux robots d'exploration conventionnels, ils montrent des limites face aux robots d'indexation intelligents utilisant l'intelligence artificielle. Les robots d'IA peuvent contourner les instructions des fichiers robots.txt, accédant ainsi à des contenus restreints. En réponse à ces limites, le texte propose d'autres solutions telles que des mécanismes de contrôle d'accès avancés, des CAPTCHA, ou des stratégies de limitation du débit pour renforcer la protection contre ces robots d'indexation sophistiqués.
Il souligne également les limites spécifiques des fichiers robots.txt, soulignant que ces règles peuvent ne pas être universellement respectées par tous les moteurs de recherche, et que les robots d'indexation interprètent la syntaxe différemment. En conclusion, le texte encourage les propriétaires de sites web à comprendre ces limites et à envisager d'autres méthodes de blocage pour assurer la protection de leur contenu contre l'accès non autorisé.
Cartographie de l'accès autorisé aux robots d'indexation
Les robots d'indexation sont des logiciels très répandus, conçus pour effectuer des recherches automatiques dans l'univers en ligne afin de trouver et de collecter des informations. Les données fournies par les crawlers permettent de donner un sens à la nature vaste et souvent chaotique du web. Les crawlers trouvent des sites web et des contenus qui alimentent les moteurs de recherche et les marchés en ligne. À mesure que les personnes et les organisations mettent en ligne une quantité toujours croissante d'informations, les entreprises technologiques et les chercheurs déploient des algorithmes plus avancés qui se nourrissent de ces données. Même les gouvernements et les forces de l'ordre utilisent désormais des robots d'indexation pour mener à bien leurs missions.
Malgré l'omniprésence des crawlers, leur utilisation est réglementée de manière ambiguë, en grande partie par des normes sociales en ligne selon lesquelles les en-têtes des pages web indiquent si les "robots" automatisés sont les bienvenus pour explorer leurs sites. Alors que les tribunaux se penchent sur les questions soulevées par les robots d'exploration, la vie privée des utilisateurs est en jeu.
En août 2017, le district nord de Californie a accordé une injonction préliminaire dans une telle affaire, décidant que le site web de LinkedIn devait être ouvert à ces robots d'exploration. En mars 2018, le tribunal du district de Columbia a accordé à un groupe de chercheurs universitaires et à un organe de presse la qualité pour agir dans le cadre d'une contestation as-applied de la loi sur la fraude et les abus informatiques. La Cour leur a permis de poursuivre une affaire dans laquelle ils allèguent maintenant que la loi, en faisant de la violation des conditions de service d'un site web un crime, interdit effectivement l'exploration du web et porte atteinte à leurs droits au titre du premier amendement. En outre, les médias sont inondés d'histoires comme celle de Cambridge Analytica, dans laquelle des robots d'indexation ont été utilisés pour extraire des données de millions de comptes Facebook à des fins politiques.
IA et données : les nouveaux défis pour les propriétaires de sites web
L'estimation de Google en 2019 indique que plus de 500 millions de sites web possèdent une page robots.txt régulant l'accès des robots, tels que Googlebot, Amazonbot, Bingbot, et GPTBot d'OpenAI. La décision de permettre à Googlebot d'explorer un site pose un dilemme, car cela signifie l'indexation et la visibilité dans les résultats de recherche en échange de la consommation de bande passante et du téléchargement du site. Pour de nombreux sites, cette décision est souvent vue comme un échange bénéfique, favorisant le trafic. Cependant, avec l'émergence de l'IA, des plateformes comme Medium ont commencé à bloquer les robots d'indexation de l'IA, considérant que cela ne constituait plus un échange de valeur, mais plutôt un vol de données.
Au cours de la dernière année, l'essor de l'IA a perturbé la décision de permettre à Googlebot d'explorer les sites web. De nombreux éditeurs ont ressenti que l'exploration des données par les sociétés d'IA équivalait à un vol plutôt qu'à un échange de valeur. Tony Stubblebine, PDG de Medium, a souligné que les entreprises d'IA n'apportaient rien en retour. Face à cela, Medium a mis à jour ses conditions d'utilisation, bloqué les robots d'indexation de l'IA, et rejoint d'autres médias dans le blocage d'OpenAI sur l'ensemble du site. La question de consentement devient centrale dans cette évolution, et le texte souligne les limites du fichier robots.txt dans cette situation.
Les propriétaires de sites web font face à des défis croissants en matière d'exploration de données avec l'essor de l'IA. Medium, dirigé par Tony Stubblebine, a pris des mesures drastiques en bloquant les robots d'indexation de l'IA et en mettant à jour ses conditions d'utilisation. Le fichier robots.txt, bien que limité, devient un instrument crucial pour définir les règles d'accès aux robots d'exploration.
Il existe également des robots d'indexation utilisés à la fois pour la recherche sur le web et pour l'IA. CCBot, géré par l'organisation Common Crawl, parcourt le web à des fins de moteur de recherche, mais ses données sont également utilisées par OpenAI, Google et d'autres pour entraîner leurs modèles. Le Bingbot de Microsoft est à la fois un crawler de recherche et un crawler d'IA. Et il ne s'agit là que des crawlers qui s'identifient eux-mêmes - beaucoup d'autres tentent d'opérer dans un secret relatif, ce qui rend difficile de les arrêter ou même de les trouver dans une mer d'autres trafics sur le web. Pour tout site web suffisamment populaire, la découverte d'un crawler sournois est une affaire d'aiguille dans la meule de foin.
Si GPTBot est devenu le principal méchant de robots.txt, c'est en grande partie parce qu'OpenAI l'a laissé faire. L'entreprise a publié et promu une page sur la manière de bloquer GPTBot et a construit son crawler de manière à ce qu'il s'identifie bruyamment à chaque fois qu'il s'approche d'un site web. Bien sûr, elle a fait tout cela après avoir formé les modèles sous-jacents qui l'ont rendue si puissante, et seulement une fois qu'elle est devenue un élément important de l'écosystème technologique.
Mais Jason Kwon, directeur de la stratégie d'OpenAI, explique que c'est en quelque sorte le but recherché. « Nous sommes un acteur de l'écosystème », explique-t-il. « Si vous voulez participer à cet écosystème d'une manière ouverte, c'est le commerce réciproque qui intéresse tout le monde. Sans cet échange, dit-il, le web commence à se rétracter, à se fermer - et c'est mauvais pour l'OpenAI et pour tout le monde. Nous faisons tout cela pour que le web reste ouvert. »
Par défaut, le protocole d'exclusion des robots a toujours été permissif. Il estime, comme Koster il y a 30 ans, que la plupart des robots sont bons et fabriqués par de bonnes personnes, et les autorise donc par défaut. C'était, dans l'ensemble, la bonne décision. « Je pense que l'internet est fondamentalement une créature sociale », déclare Kwon, de l'OpenAI, « et cette poignée de main qui a perduré pendant plusieurs décennies semble avoir fonctionné ». Le rôle d'OpenAI dans le respect de cet accord, dit-il, consiste notamment à maintenir la gratuité de ChatGPT pour la plupart des utilisateurs - ce qui permet de restituer cette valeur - et à respecter les règles des robots.
Mais robots.txt n'est pas un document juridique et, 30 ans après sa création, il dépend toujours de la bonne volonté de toutes les parties concernées. Interdire à un robot d'accéder à votre page robots.txt, c'est comme apposer un panneau « Les filles ne sont pas admises » sur votre cabane : c'est un message, mais il ne tiendra pas devant un tribunal. Tout robot qui souhaite ignorer la page robots.txt peut simplement le faire, sans trop craindre de répercussions. (Il existe un certain nombre de précédents juridiques concernant le « web scraping » en général, mais même cela peut s'avérer compliqué et repose essentiellement sur l'autorisation du « crawling » et du « scraping »). Internet Archive, par exemple, a simplement annoncé en 2017 qu'il ne respectait plus les règles de robots.txt. « Au fil du temps, nous avons observé que les fichiers robots.txt destinés aux robots d'indexation des moteurs de recherche ne servent pas nécessairement nos objectifs d'archivage », avait alors écrit Mark Graham, le directeur de la Wayback Machine de l'Internet Archive. Et c'est tout.
Alors que les entreprises spécialisées dans l'IA continuent de se multiplier et que leurs robots d'exploration sont de plus en plus dénués de scrupules, toute personne souhaitant rester à l'écart ou attendre la prise de contrôle de l'IA doit se lancer dans un jeu de piste sans fin. Il faut arrêter chaque robot et chaque crawler individuellement, si c'est possible, tout en tenant compte des effets secondaires. Si l'IA est en fait l'avenir de la recherche, comme Google et d'autres l'ont prédit, bloquer les robots d'exploration de l'IA pourrait être une victoire à court terme, mais un désastre à long terme.
Des deux côtés, certains pensent que nous avons besoin d'outils meilleurs, plus solides et plus rigides pour gérer les robots d'indexation. Ils estiment qu'il y a trop d'argent en jeu, et trop de cas d'utilisation nouveaux et non réglementés, pour compter sur le fait que tout le monde se mette d'accord pour faire ce qu'il faut. « Bien que de nombreux acteurs aient adopté des règles régissant eux-mêmes leur utilisation des robots d'indexation », écrivent deux avocats spécialisés dans la technologie dans un document de 2019 sur la légalité des robots d'indexation, « les règles dans leur ensemble sont trop faibles et il est trop difficile de les tenir pour responsables ».
Google, qui s'est efforcé il y a quelques années de faire du protocole d'exclusion des robots une norme officielle formalisée, a également fait pression pour que robots.txt soit relégué au second plan, au motif qu'il s'agit d'une norme ancienne et que trop de sites n'y prêtent pas attention.
Envoyé par Google
Même si les entreprises d'IA sont confrontées à des questions réglementaires et juridiques sur la manière dont elles construisent et entraînent leurs modèles, ces modèles continuent de s'améliorer et de nouvelles entreprises semblent voir le jour tous les jours. Les sites web, grands et petits, sont confrontés à une décision : se soumettre à la révolution de l'IA ou s'y opposer. Pour ceux qui choisissent de se retirer, leur arme la plus puissante est un accord conclu il y a trois décennies par certains des premiers et des plus optimistes vrais croyants du web.
Ils pensaient que l'Internet était un endroit agréable, peuplé de gens honnêtes, qui voulaient avant tout que l'Internet soit une bonne chose. Dans ce monde, et sur cet Internet, il suffisait d'expliquer ses souhaits dans un fichier texte pour que la gouvernance soit assurée. Aujourd'hui, alors que l'IA s'apprête à remodeler à nouveau la culture et l'économie de l'internet, un humble fichier texte commence à paraître un peu démodé.
Sources : Palewire, BBC, Google
Et vous ?
Quel est votre avis sur le sujet ?
À votre avis, les fichiers Robots.txt peuvent-ils réellement stopper les robots d'IA ?
Selon vous, bloquer les robots d'exploration de l'IA pourrait être une victoire ou un désastre ?
Voir aussi :
Google suggère de mettre à jour le fichier Robots.txt pour les cas d'utilisation de l'IA émergente, selon Danielle Romain, vice-présidente de Google chargée de la confiance
Google I/O 2023 : l'IA est désormais omniprésente dans les produits phares de Google, l'entreprise présente ses dernières innovations en matière de technologie, d'IA, de cloud computing