GPTBot se veut plus transparent, en s'identifiant correctement pour permettre aux webmasters d'autoriser ou non l'accès. Le robot utilise le jeton d'agent utilisateur "GPTBot" et une chaîne d'agent utilisateur complète indiquant clairement qu'il provient d'OpenAI.
Code : | Sélectionner tout |
1 2 | User agent token: GPTBot Full user-agent string: Mozilla/5.0 AppleWebKit/537.36 (KHTML, like Gecko; compatible; GPTBot/1.0; +https://openai.com/gptbot) |
Ce lancement reflète la réponse d'OpenAI aux récentes critiques concernant les grands modèles de langage tels que GPT-4 qui ont été formés sur des données de sites web sans autorisation explicite. Même si le contenu est accessible au public, les critiques soutiennent qu'il devrait toujours y avoir des accords d'acceptation pour l'entraînement de l'IA. Ils s'inquiètent également du fait que le contenu soit sorti de son contexte lorsqu'il est introduit dans les systèmes d'intelligence artificielle.
Le lancement de GPTBot met en évidence les zones d'ombre entourant l'utilisation de données accessibles au public pour développer des modèles d'IA, qui peuvent bénéficier de vastes ensembles de données d'entraînement. Il illustre les débats éthiques qui émergent au fur et à mesure que les capacités de l'IA progressent. À l'avenir, des lignes directrices plus claires en matière de protection de la vie privée et des cadres éthiques seront nécessaires pour trouver le bon équilibre.
Voici quelques informations publiées par OpenAI sur l'utilisation de GPTBot :
Utilisation
Les pages web explorées avec l'agent utilisateur GPTBot peuvent potentiellement être utilisées pour améliorer les modèles futurs et sont filtrées pour supprimer les sources qui nécessitent un accès payant, qui sont connues pour collecter des informations personnelles identifiables (PII), ou qui contiennent du texte qui viole nos politiques. Permettre à GPTBot d'accéder à votre site peut aider les modèles d'IA à devenir plus précis et à améliorer leurs capacités générales et leur sécurité. Nous vous expliquons ci-dessous comment empêcher GPTBot d'accéder à votre site.
Désactiver GPTBot
Pour empêcher GPTBot d'accéder à votre site, vous pouvez ajouter GPTBot au fichier robots.txt de votre site :
Personnaliser l'accès à GPTBot
Pour permettre à GPTBot d'accéder uniquement à certaines parties de votre site, vous pouvez ajouter le jeton GPTBot au fichier robots.txt de votre site comme suit :
Les pages web explorées avec l'agent utilisateur GPTBot peuvent potentiellement être utilisées pour améliorer les modèles futurs et sont filtrées pour supprimer les sources qui nécessitent un accès payant, qui sont connues pour collecter des informations personnelles identifiables (PII), ou qui contiennent du texte qui viole nos politiques. Permettre à GPTBot d'accéder à votre site peut aider les modèles d'IA à devenir plus précis et à améliorer leurs capacités générales et leur sécurité. Nous vous expliquons ci-dessous comment empêcher GPTBot d'accéder à votre site.
Désactiver GPTBot
Pour empêcher GPTBot d'accéder à votre site, vous pouvez ajouter GPTBot au fichier robots.txt de votre site :
Code : | Sélectionner tout |
1 2 | User-agent: GPTBot Disallow: / |
Pour permettre à GPTBot d'accéder uniquement à certaines parties de votre site, vous pouvez ajouter le jeton GPTBot au fichier robots.txt de votre site comme suit :
Code : | Sélectionner tout |
1 2 3 | User-agent: GPTBot Allow: /directory-1/ Disallow: /directory-2/ |
Et vous ?
Pensez-vous que cette annonce est crédible ou pertinente ?
Quel est votre avis sur cette action d'OpenAI d'être plus transparent ?
Voir aussi :
ChatGPT d'OpenAI dans le collimateur de la FTC : l'agence veut déterminer si l'IA met en danger la réputation et les données des utilisateurs
Le PDG d'OpenAI confirme que l'entreprise ne travaille pas actuellement sur GPT-5 :
« Nous ne le faisons pas et ne le ferons pas avant un certain temps »
Une plainte dénonce le pillage des données publiques par Google pour entraîner son chatbot Bard.
Des données d'enfants, d'artistes et d'écrivains prises sans consentement