L’IA et l’accès aux données
Les algorithmes d’IA ont besoin de données pour s’entraîner et apprendre. Cependant, l’accès non autorisé aux données peut entraîner des problèmes. Certaines entreprises d’IA, comme Anthropic, ont été accusées de solliciter les serveurs de sites web sans autorisation, ce qui peut entraîner une surcharge des ressources et des temps d’arrêt.
L'une de leur victime n'est autre qu'iFixit. Le PDG de la structure, Kyle Wiens, a interpellé la société d’IA Anthropic en ces termes : « Avez-vous vraiment besoin de solliciter nos serveurs un million de fois en 24 heures ? » En supposant que Wiens n’exagère pas tant que ça, il n’est pas surprenant que cela « mobilise nos ressources DevOps ». Un million de sollicitations par jour suffirait amplement à justifier plus qu’un simple agacement.
Le fait est que la mise en contexte de cette utilisation abusive de la bande passante ne fait que la rendre plus ridicule, et c'est ce à quoi Wiens veut en venir. Il ne s'agit pas seulement du fait qu'une société d'IA semble engorger les ressources du serveur, mais aussi du fait qu'il lui a été expressément interdit d'utiliser le contenu sur ses serveurs.
Il ne devrait y avoir aucune raison pour qu'une société d'IA se rende sur le site d'iFixit, car ses conditions d'utilisation stipulent que « la copie ou la distribution de tout contenu, matériel ou élément de conception sur le site à toute autre fin, y compris l'entraînement d'un modèle d'apprentissage automatique ou d'IA, est strictement interdite sans l'autorisation écrite expresse et préalable d'iFixit ». À moins qu'il ne veuille nous faire croire qu'il n'utilisera pas les données qu'il récupère à ces fins, et qu'il le fait juste pour... s'amuser ?
Quoi qu'il en soit, Wiens d'iFixit a décidé de s'amuser et de demander à Claude, l'IA d'Anthropic, ce qu'il en pensait, en disant à Anthropic : « Ne me demandez pas à moi, demandez à Claude ! Il semble que Claude soit d'accord avec iFixit, car lorsqu'on lui demande ce qu'il devrait faire s'il entraînait un modèle d'apprentissage automatique et trouvait l'écriture ci-dessus dans ses conditions de service, il répond, en termes très clairs, « N'utilisez pas le contenu. »
Comme le souligne MWiens, il suffit d'accéder aux conditions d'utilisation pour s'en rendre compte. Cela a conduit certains à se demander si certaines entreprises d'IA ne préfèrent pas demander pardon plutôt que demander la permission, et ne prennent donc pas la peine de vérifier les conditions d'utilisation en premier lieu.
[TWITTER]<blockquote class="twitter-tweet"><p lang="en" dir="ltr">If any of those requests accessed our terms of service, they would have told you that use of our content expressly forbidden. But don't ask me, ask Claude!<br><br>If you want to have a conversation about licensing our content for commercial use, we're right here. <a href="https://t.co/CAkOQDnLjD">pic.twitter.com/CAkOQDnLjD</a></p>— Kyle Wiens (@kwiens) <a href="https://twitter.com/kwiens/status/1816136485785186335?ref_src=twsrc%5Etfw">July 24, 2024</a></blockquote> <script async src="https://platform.twitter.com/widgets.js" charset="utf-8"></script> [/TWITTER]
Ce n'est pas un cas isolé
Midjourney a annoncé l'interdiction pour les employés de Stability AI d'utiliser son service, affirmant que les membres du personnel de la société rivale d'IA générative ont causé une panne de système en tentant de récupérer les données de Midjourney. L'incident a été reconnu dans une mise à jour sur le serveur Discord de Midjourney le 2 mars, citant une panne de serveur prolongée empêchant l'affichage des images générées dans les galeries des utilisateurs. La société a attribué la panne à une « activité de type botnet à partir de comptes payants », la reliant spécifiquement aux employés de Stability AI.
Selon Nick St. Pierre, utilisateur de Midjourney sur X, qui a écouté l'appel, Midjourney a déclaré que le service avait été interrompu parce que « quelqu'un de Stability AI essayait de récupérer toutes les paires de messages et d'images au milieu de la nuit de samedi à dimanche ». Pierre a déclaré que Midjourney avait lié plusieurs comptes payants à une personne de l'équipe de données de Stability AI.
[TWITTER]<blockquote class="twitter-tweet"><p lang="en" dir="ltr">In MJ office hours they just said someone at Stability AI was trying to grab all the prompt and image pairs in the middle of a night on Saturday and brought down their service. <br><br>MJ is banning all of the stabilityAI employees from Midjourney immediately<br><br>This is breaking now</p>— Nick St. Pierre (@nickfloats) <a href="https://twitter.com/nickfloats/status/1765471291300045255?ref_src=twsrc%5Etfw">March 6, 2024</a></blockquote> <script async src="https://platform.twitter.com/widgets.js" charset="utf-8"></script> [/TWITTER]
Dans son résumé de l'appel de mise à jour du 6 mars (que Midjourney appelle « heures de bureau »), la société dit qu'elle interdit à tous les employés de Stability AI d'utiliser son service « indéfiniment » en réponse à la panne. Midjourney introduit également une nouvelle politique qui interdira de la même manière les employés de toute entreprise qui exerce une « automatisation agressive » ou qui provoque des pannes du service.
Pierre a signalé les accusations au PDG d'alors de Stability AI, Emad Mostaque, qui a répondu sur X, disant qu'il enquêtait sur la situation et que Stability n'avait pas ordonné les actions en question. « Il est très difficile de comprendre comment deux comptes ont pu faire cela. L'équipe n'a pas fait de scraping, car nous avons utilisé des données synthétiques et autres, étant donné que SD3 surpasse tous les autres modèles », a déclaré Mostaque, faisant référence au modèle d'IA Stable Diffusion 3, actuellement en preview. Il a affirmé que si la panne avait été causée par un employé de Stability, elle n'était pas intentionnelle et « n'était manifestement pas une attaque DDoS ».
« Quoi qu'il en soit, je suis un grand fan de MJ & David, c'est pourquoi je les ai soutenus au début avec la subvention pour payer la bêta », a-t-il indiqué.
Le fondateur de Midjourney, David Holz, a répondu à Mostaque dans le même fil de discussion, affirmant lui avoir envoyé « quelques informations » pour l'aider dans son enquête interne.
Les conséquences de l’engorgement des serveurs
- Performance du site web : Lorsque les serveurs sont surchargés, la performance du site web en souffre. Les temps de chargement augmentent, les pages peuvent ne pas se charger correctement, et les utilisateurs peuvent être frustrés.
- Disponibilité des services : Si les serveurs sont constamment sollicités par des requêtes non autorisées, les services peuvent devenir indisponibles pour les utilisateurs légitimes. Cela peut avoir un impact sur les entreprises qui dépendent de leurs sites web pour leurs activités.
- Coûts d’infrastructure : L’engorgement des serveurs peut entraîner des coûts supplémentaires pour les propriétaires de sites web, qui doivent augmenter leurs capacités d’infrastructure pour faire face à la demande accrue.
Réguler l’utilisation de l’IA
- Conditions d’utilisation strictes : Les sites web devraient mettre en place des conditions d’utilisation claires et strictes concernant l’utilisation de leurs données. Les entreprises d’IA doivent respecter ces règles, même si elles sont invisibles pour l’utilisateur.
- Surveillance et blocage : Les propriétaires de sites web peuvent surveiller le trafic entrant et bloquer les adresses IP suspectes. Ils peuvent également mettre en place des mécanismes de détection automatique pour repérer les comportements anormaux.
- Sensibilisation et éducation : Sensibiliser les entreprises d’IA aux conséquences de l’engorgement des serveurs peut aider à réduire ce problème. L’éducation sur les bonnes pratiques d’utilisation des données est essentielle.
Conclusion
L’engorgement des serveurs par l’IA est un défi croissant pour les sites web. En mettant en place des règles strictes, en surveillant le trafic et en sensibilisant les acteurs de l’IA, nous pouvons espérer minimiser les effets négatifs de ce phénomène.
Et vous ?
L’IA devrait-elle être soumise à des règles strictes concernant l’utilisation des données des sites web ? Pensez-vous que les entreprises d’IA devraient respecter les conditions d’utilisation des sites web, même si elles sont invisibles et immatérielles ?
Quelles sont les implications de l’engorgement des serveurs par l’IA ? Pensez aux conséquences potentielles de l’IA qui frappe les serveurs sans autorisation. Comment cela peut-il affecter les performances des sites web et la disponibilité des services ?
Comment pouvons-nous équilibrer l’innovation de l’IA avec le respect des droits d’auteur et des règles ? Partagez vos idées sur la manière dont nous pouvons encourager l’innovation tout en protégeant les droits des créateurs de contenu.
Quelles autres mesures devraient être prises pour réguler l’utilisation de l’IA ? Réfléchissez à d’autres moyens de garantir que l’IA agisse de manière éthique et respecte les règles établies.