IdentifiantMot de passe
Loading...
Mot de passe oublié ?Je m'inscris ! (gratuit)

Vous êtes nouveau sur Developpez.com ? Créez votre compte ou connectez-vous afin de pouvoir participer !

Vous devez avoir un compte Developpez.com et être connecté pour pouvoir participer aux discussions.

Vous n'avez pas encore de compte Developpez.com ? Créez-en un en quelques instants, c'est entièrement gratuit !

Si vous disposez déjà d'un compte et qu'il est bien activé, connectez-vous à l'aide du formulaire ci-dessous.

Identifiez-vous
Identifiant
Mot de passe
Mot de passe oublié ?
Créer un compte

L'inscription est gratuite et ne vous prendra que quelques instants !

Je m'inscris !

Le bot d'OpenAI détruit le site Web d'une entreprise de sept personnes « comme une attaque DDoS »,
Conséquences du non-respect de robots.txt

Le , par Bruno

10PARTAGES

3  0 
La question de la gestion du scraping et du crawling des bots, notamment par des entreprises d’intelligence artificielle comme OpenAI, soulève des préoccupations croissantes parmi les propriétaires de sites web. Un incident récent a mis en lumière ces enjeux : le site de Triplegangers, une petite entreprise spécialisée dans la vente de modèles 3D de « doubles numériques humains », a été gravement perturbé par un bot d’OpenAI qui a effectué un scraping agressif sur ses pages. Ce bot a généré une quantité massive de requêtes, affectant la performance du site et provoquant des interruptions similaires à celles observées lors d’attaques par déni de service distribué (DDoS).

Cet événement illustre des problématiques complexes liées à l’utilisation des fichiers « robots.txt », qui permettent théoriquement de contrôler l'accès des bots aux sites web. Pourtant, même avec une configuration appropriée de ces fichiers, des défis subsistent, notamment en raison du non-respect des directives par certains crawlers et de la lenteur de leur réponse aux mises à jour. Les entreprises d’IA, en particulier, semblent contourner ces protocoles, ce qui complique davantage la gestion des droits d'auteur et la protection des données, en particulier dans des domaines où les informations sont sensibles, comme les images de personnes réelles.


L'incident de Triplegangers soulève également des questions sur les implications juridiques du non-respect des fichiers robots.txt. Bien qu'il ne s'agisse pas d'un contrat juridiquement contraignant, certains commentateurs estiment que l'impact financier et logistique des pratiques de scraping agressif pourrait justifier des recours, notamment dans des situations où le scraping mène à une surcharge des ressources ou à une violation des droits des propriétaires de contenu. Cette situation révèle également une lacune dans la transparence des pratiques des entreprises de technologie, telles qu'OpenAI, qui n'ont pas encore mis en place des mécanismes efficaces pour permettre aux entreprises affectées de faire valoir leurs droits, ou pour retirer le contenu collecté sans autorisation.

L'importance d'une régulation stricte pour protéger les données sensibles

OpenAI a envoyé des dizaines de milliers de requêtes pour tenter de télécharger l'intégralité du site de Triplegangers, y compris des centaines de milliers de photos et leurs descriptions détaillées. « Le bot a utilisé jusqu’à 600 adresses IP pour collecter les données, et nous continuons d'analyser les logs de la semaine dernière ; il pourrait y en avoir encore plus », a expliqué Tomchuk. Il a ajouté : « Leur bot a complètement saturé notre site, c’était pratiquement une attaque DDoS. »

Triplegangers, une entreprise de sept personnes, possède l'une des plus grandes bases de données de « doubles numériques humains » : des modèles 3D d'images scannées à partir de vrais modèles humains. Ces fichiers sont vendus aux créateurs de jeux vidéo et aux artistes 3D pour recréer des caractéristiques humaines authentiques. Le site contient des images très détaillées, couvrant des aspects comme l'origine ethnique, l'âge, les tatouages et les cicatrices.

Malgré la présence d'une page de conditions d'utilisation interdisant le scraping non autorisé, le bot d'OpenAI a continué d'explorer le site, ignorant les directives de celui-ci. Pour protéger son contenu, Triplegangers a mis en place un fichier robots.txt bien configuré et un compte Cloudflare pour bloquer non seulement GPTBot d'OpenAI, mais aussi d'autres bots, comme Barkrowler et Bytespider. Bien que ces mesures aient rétabli l'accès au site, Tomchuk n'a toujours aucun moyen de savoir exactement quelles données ont été collectées par OpenAI, et n’a trouvé aucune méthode pour contacter l'entreprise.

OpenAI déclare respecter les fichiers robots.txt, mais ces derniers ne sont pas une solution garantie. Les entreprises d’IA, comme Perplexity, ont parfois ignoré ces règles, ce qui complique la gestion de la collecte de données. Triplegangers, un site particulièrement vulnérable à ce type de collecte en raison de la nature sensible de ses images, se retrouve dans une situation délicate, car des lois comme le RGPD interdisent l'utilisation non autorisée des données personnelles. Paradoxalement, c’est l’agressivité du bot d’OpenAI qui a permis à l'entreprise de découvrir sa vulnérabilité, un problème qu’elle n’aurait pas remarqué si le scraping avait été plus discret.

Pourquoi le fichier robots.txt ne suffit plus à protéger les sites web

L'incident décrit soulève plusieurs problématiques concernant la collecte de données par les bots d'IA, notamment le respect du fichier robots.txt et les conséquences de son non-respect pour les petites entreprises comme Triplegangers.

Tout d'abord, il est évident que l'agressivité des bots, en particulier ceux d'OpenAI, a des effets négatifs sur des sites qui ne disposent pas des ressources nécessaires pour gérer un tel trafic. L'exemple de Triplegangers, qui voit son site paralysé par un nombre excessif de requêtes, illustre bien ce problème. Même avec un fichier robots.txt correctement configuré, les entreprises peuvent se retrouver dans l'incapacité de protéger leur contenu, car les bots ne sont pas juridiquement contraints de respecter ce fichier. Cette situation met en lumière une lacune dans la régulation du scraping, qui, bien que techniquement possible, n'est pas toujours respecté par les acteurs majeurs.

Ensuite, la transparence et la communication jouent un rôle crucial dans ce contexte. L'absence de moyen pour Triplegangers de savoir exactement ce qui a été récupéré par OpenAI est préoccupante. Sans outil de retrait ni réponse d'OpenAI, cette situation crée un sentiment d'impuissance face à l'exploitation non autorisée de données sensibles. Cela soulève la question de la responsabilité des entreprises d'IA dans la gestion des données qu'elles collectent, et la nécessité de créer des mécanismes plus efficaces pour permettre aux propriétaires de sites de demander le retrait de contenu.

De plus, l’argument des droits d’image et de la protection des données personnelles, comme le souligne Triplegangers, est particulièrement pertinent dans des secteurs comme celui-ci, où des images de personnes réelles sont utilisées. Les entreprises d'IA doivent respecter des lois comme le RGPD, qui interdit la collecte non autorisée d'informations personnelles. Cela devient encore plus problématique lorsque les données sont récupérées à grande échelle, sans consentement explicite, ce qui pourrait constituer une violation des droits individuels.


Enfin, l'ironie de la situation réside dans le fait que l’avidité des bots pour explorer le contenu a permis à Triplegangers de se rendre compte de la vulnérabilité de son site. Si les bots avaient agi de manière plus discrète, cette exploitation des données pourrait être passée inaperçue. Cela démontre qu'il existe une fine ligne entre l'exploitation légitime des données publiques et l'abus de pouvoir technologique.

En conclusion, bien que robots.txt serve de garde-fou, il ne suffit pas à protéger efficacement les sites contre les collectes de données abusives. Les entreprises d'IA doivent être soumises à des régulations plus strictes et à des mécanismes de responsabilisation pour garantir que la collecte de données se fasse dans le respect des droits des créateurs et des utilisateurs. Le non-respect de robots.txt soulève des questions éthiques et juridiques qui doivent être prises au sérieux, et les propriétaires de sites doivent disposer d'outils adéquats pour protéger leur contenu et leurs données.

Source : Triplegangers

Et vous ?

Quel est votre avis sur le sujet ?

Le scraping agressif des bots d'IA peut-il être considéré comme une forme d'attaque par déni de service (DDoS) ? Si oui, quelles mesures de protection supplémentaires les petites entreprises devraient-elles envisager ?

Les fichiers robots.txt devraient-ils être juridiquement contraignants pour garantir la protection des sites contre le scraping non autorisé ?

Voir aussi :

Le mot «bot» est de plus en plus utilisé comme une insulte sur les médias sociaux. Les gens semblent l'employer désormais pour insulter les personnes avec lesquelles ils ne sont pas d'accord

Meta lance un nouveau bot Meta-ExternalAgent afin d'explorer massivement le web pour obtenir des données d'entraînement de l'IA, en utilisant des moyens sournois pour éviter d'être bloqué

« Oui, je suis un humain » : la détection des bots ne fonctionne plus. Et attendez l'arrivée des agents d'IA, les développeurs devront faire la différence entre les « bons » bots et les « mauvais » bots

Une erreur dans cette actualité ? Signalez-nous-la !