IdentifiantMot de passe
Loading...
Mot de passe oublié ?Je m'inscris ! (gratuit)

Vous êtes nouveau sur Developpez.com ? Créez votre compte ou connectez-vous afin de pouvoir participer !

Vous devez avoir un compte Developpez.com et être connecté pour pouvoir participer aux discussions.

Vous n'avez pas encore de compte Developpez.com ? Créez-en un en quelques instants, c'est entièrement gratuit !

Si vous disposez déjà d'un compte et qu'il est bien activé, connectez-vous à l'aide du formulaire ci-dessous.

Identifiez-vous
Identifiant
Mot de passe
Mot de passe oublié ?
Créer un compte

L'inscription est gratuite et ne vous prendra que quelques instants !

Je m'inscris !

OpenAI dévoile GPTBot, un bot qui explore les données du Web public pour l'apprentissage de l'IA
Pour répondre aux plaintes concernant l'utilisation de données de sites Web

Le , par Jade Emy

2PARTAGES

5  0 
OpenAI a lancé un nouveau web crawler appelé GPTBot pour collecter les données publiques disponibles sur Internet afin d'entraîner les modèles d'intelligence artificielle. Ce lancement intervient dans un contexte de controverses récentes où des entreprises technologiques ont été accusées de récupérer des sites web sans consentement explicite pour alimenter de grands modèles de langage tels que GPT-4.

GPTBot se veut plus transparent, en s'identifiant correctement pour permettre aux webmasters d'autoriser ou non l'accès. Le robot utilise le jeton d'agent utilisateur "GPTBot" et une chaîne d'agent utilisateur complète indiquant clairement qu'il provient d'OpenAI.

Code : Sélectionner tout
1
2
User agent token: GPTBot
Full user-agent string: Mozilla/5.0 AppleWebKit/537.36 (KHTML, like Gecko; compatible; GPTBot/1.0; +https://openai.com/gptbot)
OpenAI précise que GPTBot n'accède qu'aux sites qui ne requièrent pas d'inscription à un paywall, qui ne recueillent pas de données d'utilisateur personnellement identifiables ou qui ne contiennent pas de texte violant la politique de l'entreprise. L'entreprise affirme que l'autorisation du bot peut contribuer à améliorer la précision et les capacités des systèmes d'intelligence artificielle.

Ce lancement reflète la réponse d'OpenAI aux récentes critiques concernant les grands modèles de langage tels que GPT-4 qui ont été formés sur des données de sites web sans autorisation explicite. Même si le contenu est accessible au public, les critiques soutiennent qu'il devrait toujours y avoir des accords d'acceptation pour l'entraînement de l'IA. Ils s'inquiètent également du fait que le contenu soit sorti de son contexte lorsqu'il est introduit dans les systèmes d'intelligence artificielle.


Le lancement de GPTBot met en évidence les zones d'ombre entourant l'utilisation de données accessibles au public pour développer des modèles d'IA, qui peuvent bénéficier de vastes ensembles de données d'entraînement. Il illustre les débats éthiques qui émergent au fur et à mesure que les capacités de l'IA progressent. À l'avenir, des lignes directrices plus claires en matière de protection de la vie privée et des cadres éthiques seront nécessaires pour trouver le bon équilibre.

Voici quelques informations publiées par OpenAI sur l'utilisation de GPTBot :

Utilisation

Les pages web explorées avec l'agent utilisateur GPTBot peuvent potentiellement être utilisées pour améliorer les modèles futurs et sont filtrées pour supprimer les sources qui nécessitent un accès payant, qui sont connues pour collecter des informations personnelles identifiables (PII), ou qui contiennent du texte qui viole nos politiques. Permettre à GPTBot d'accéder à votre site peut aider les modèles d'IA à devenir plus précis et à améliorer leurs capacités générales et leur sécurité. Nous vous expliquons ci-dessous comment empêcher GPTBot d'accéder à votre site.

Désactiver GPTBot

Pour empêcher GPTBot d'accéder à votre site, vous pouvez ajouter GPTBot au fichier robots.txt de votre site :

Code : Sélectionner tout
1
2
User-agent: GPTBot
Disallow: /
Personnaliser l'accès à GPTBot

Pour permettre à GPTBot d'accéder uniquement à certaines parties de votre site, vous pouvez ajouter le jeton GPTBot au fichier robots.txt de votre site comme suit :

Code : Sélectionner tout
1
2
3
User-agent: GPTBot
Allow: /directory-1/
Disallow: /directory-2/
Source : OpenAI

Et vous ?

Pensez-vous que cette annonce est crédible ou pertinente ?
Quel est votre avis sur cette action d'OpenAI d'être plus transparent ?

Voir aussi :

ChatGPT d'OpenAI dans le collimateur de la FTC : l'agence veut déterminer si l'IA met en danger la réputation et les données des utilisateurs

Le PDG d'OpenAI confirme que l'entreprise ne travaille pas actuellement sur GPT-5 :
« Nous ne le faisons pas et ne le ferons pas avant un certain temps »


Une plainte dénonce le pillage des données publiques par Google pour entraîner son chatbot Bard.
Des données d'enfants, d'artistes et d'écrivains prises sans consentement

Une erreur dans cette actualité ? Signalez-nous-la !