Developpez.com - Rubrique IA

Le Club des Développeurs et IT Pro

26 % des 100 premiers sites web ont bloqué GPTBot

Dont la plateforme Pinterest et les sites populaires tels que Web MD et dictionary.com

Le 2023-09-29 16:19:57, par Jade Emy, Communiqués de presse
Pour qu'OpenAI puisse fournir un service décent par l'intermédiaire de son service phare ChatGPT, elle doit extraire une grande quantité de données de tout l'Internet. Pour ce faire, elle utilise un robot d'exploration connu sous le nom de GPTBot. Malgré cela, il s'avère que plus d'un quart des 100 premiers sites web du monde ont bloqué le robot pour qu'il ne puisse pas récupérer leurs données.

Plus précisément, 26 de ces 100 premiers sites web ont fermé leurs portes à GPTBot, rendant ainsi plus difficile pour OpenAI de mettre la main sur les données dont elle a besoin. Si nous élargissons le champ d'application aux 1 000 premiers sites web, 242 d'entre eux ont décidé d'interdire complètement l'accès à GPTBot. Cela signifie que cette proportion est à peu près la même quel que soit le nombre de sites ajoutés à l'équation.


Il y a un mois à peine, seuls 69 des 1 000 premiers sites Web avaient pris cette décision radicale après avoir examiné et pris en compte tous les éléments. Cela signifie que le nombre de sites web qui ne veulent plus se conformer à la loi a augmenté de 250 %. GPTBot est également bloqué dans une proportion beaucoup plus importante que d'autres scrapers tels que CCBot et Anthropic AI.

Il est important de noter que certaines des plus grandes marques du monde font partie de cette liste. Il s'agit notamment de la plateforme de médias sociaux Pinterest, de sites d'information appartenant à The Guardian, USA Today, Washington Post et CBS News, ainsi que de sites populaires tels que Web MD et dictionary.com.

Les sites web agissent ainsi parce que ChatGPT ne fournit aucune référence ou source pour les informations qu'il fournit. Cela peut être préjudiciable, car c'est le genre de chose qui pourrait finir par priver ces sites web des attributions dont ils ont besoin pour les informations qu'ils créent de leur propre chef.


Source : Originality.ai

Et vous ?

Pensez-vous que cette étude est crédible ou pertinente ?
Quel est votre avis sur le sujet ?

Voir aussi :

OpenAI dévoile GPTBot, un bot qui explore les données du Web public pour l'apprentissage de l'IA, pour répondre aux plaintes concernant l'utilisation de données de sites Web

Google indique qu'il va utiliser tout ce que vous allez publier en ligne comme données d'entraînement de son IA dans une mise à jour de sa politique de confidentialité

Le New York Times dit non à l'utilisation de son contenu comme données d'entraînement pour une IA sans son accord et menace de poursuites judiciaires
  Discussion forum
4 commentaires
  • _toma_
    Membre averti
    Il y a un mois à peine, seuls 69 des 1 000 premiers sites Web avaient pris cette décision radicale après avoir examiné et pris en compte tous les éléments. Cela signifie que le nombre de sites web qui ne veulent plus se conformer à la loi a augmenté de 250 %.
    Se conformer à la loi ? Quelle loi ?
  • Beginner.
    Membre expert
    Envoyé par _toma_
    Se conformer à la loi ? Quelle loi ?
    Je me suis posé la même question... A la loi des IA ?