Ceci étant dit, il est important de noter que 69 des 1000 premiers sites web au monde ont bloqué GPTBot. Cela représente un peu moins de 7 %, et si nous nous concentrons sur les cent premiers sites web, cette proportion s'élève à 15 %. Les sites web agissent de la sorte parce que cela pourrait empêcher GPT de gratter leur contenu à leur insu.
Parmi ces sites figurent des poids lourds tels qu'Amazon, Quora, Shutterstock, le New York Times et CNN. Ce ne sont là que quelques-uns des sites web qui ont bloqué GPTBot jusqu'à présent, et leur nombre augmente de 5 % chaque semaine.
Un autre webcrawler bloqué est CCBot, le robot d'exploration du web lancé par Common Crawl. ChatGPT et OpenAI s'appuient également sur ce webcrawler afin de collecter des données pour leurs systèmes, qui peuvent être utilisées pour former leur IA de manière beaucoup plus efficace, et l'analyse a montré que 62 des 1000 premiers sites web sur l'internet l'ont bloqué jusqu'à présent.
Cela n'augure rien de bon pour l'avenir du secteur, car les entreprises spécialisées dans l'IA dépendront de ces ensembles de données. La plupart des propriétaires de sites web ne souhaitent pas que leurs données soient récupérées, et il sera intéressant de voir comment les choses évolueront à partir de maintenant. OpenAI pourrait être contraint d'acheter des données au lieu de se contenter de les récupérer, ce qui lui ferait perdre beaucoup de revenus.
Source : Originality.AI
Et vous ?
Pensez-vous que cette étude est crédible ou pertinente ?
Quel est votre avis sur le sujet ?
Voir aussi :
OpenAI dévoile GPTBot, un bot qui explore les données du Web public pour l'apprentissage de l'IA pour répondre aux plaintes concernant l'utilisation de données de sites Web
Le New York Times envisage d'initier une action en justice contre OpenAI pour l'obliger à effacer les données d'entraînement de ChatGPT. Le média dit non à l'usage de son contenu sans son accord
Une plainte dénonce le pillage des données publiques par Google pour entraîner son chatbot Bard. Des données d'enfants, d'artistes et d'écrivains prises sans consentement