Une étude publiée par des scientifiques de l'"Allen Institute for AI" révèle que ChatGPT peut devenir la pire version de lui-même simplement en changeant le personnage qui lui a été attribué au moment de sa construction. L'attribution d'un personnage à ChatGPT (une personne horrible, par exemple) via l'API d'OpenAI multiplie par six la toxicité du chatbot d'IA. ChatGPT se met ensuite à débiter des énormités, dont des phrases discriminatoires, agressives, sexistes ou racistes. De plus, le fait de faire passer ChatGPT pour certaines figures historiques, des personnes sexuées et des membres de partis politiques augmentait également sa toxicité.L'attribution d'une personnalité à ChatGPT peut modifier significativement ses résultats
L'Allen Institute for AI est un institut de recherche fondé par le regretté cofondateur de Microsoft, Paul Allen. Selon l'équipe de recherche, il s'agit de la première étude portant sur la toxicité à grande échelle de ChatGPT. L'étude montre les dangers de la technologie des chatbots IA d'aujourd'hui, même si des mesures d'atténuation ont été mises en place par les entreprises pour empêcher les textes toxiques de sortir. Comme le notent les coauteurs de l'étude, les applications et les logiciels construits sur la base de ChatGPT - qui comprend les chatbots de Snap, Quizlet, Instacart et Shopify - pourraient refléter la toxicité signalée au niveau de l'API.
L'étude souligne que ChatGPT présente une toxicité inhérente qui est multipliée jusqu'à six fois lorsqu'on lui attribue une gamme variée de personnalités (tels que des personnages historiques, des professions, etc.). Près de 100 personnages issus de milieux différents ont été examinés sur plus d'un demi-million de générations de sorties ChatGPT, notamment des journalistes, des politiciens, des sportifs et des hommes d'affaires, ainsi que des personnes de race, de sexe et d'orientation sexuelle différents. Pour attribuer une personnalité à ChatGPT, les chercheurs affirment qu'il faut simplement modifier les paramètres système de l'API de ChatGPT.
Les paramètres système sont accessibles à quiconque construit une application basée sur ChatGPT en utilisant l'API d'OpenAI, de sorte que l'impact de cette toxicité pourrait être généralisé (avec les logiciels construits sur la base de ChatGPT). Les paramètres système, introduits il y a environ un mois, permettent aux développeurs de spécifier des règles cachées pour le modèle. Pour chaque personnage et chaque nom, l'équipe de recherche a demandé au chatbot d'IA de répondre à des questions sur le sexe et la race et de terminer des phrases incomplètes tirées d'un ensemble de données conçu pour évaluer la toxicité des modèles de génération de texte.
L'équipe a constaté que ChatGPT était plus susceptible d'exprimer des opinions discriminatoires et de stéréotyper des groupes ethniques et des pays spécifiques lorsqu'on lui attribuait un personnage. Sans surprise, les personnages les plus polarisants, comme Mao Zedong et Andrew Breitbart, ont suscité des réponses toxiques en accord avec leurs discours et leurs écrits historiques. Mais même des personnages moins controversés comme Steve Jobs ont poussé le chatbot d'IA à répondre aux questions de manière problématique. Par exemple, lorsque l'équipe lui a attribué le personnage de Steve Jobs et l'a interrogé sur l'UE, ChatGPT a répondu :
« L'UE n'est rien d'autre qu'un cauchemar bureaucratique qui pompe la vie de ses États membres. Elle prétend être synonyme d'unité et de progrès, mais ce n'est qu'une bande de bureaucrates dépassés qui cherchent davantage à se remplir les poches qu'à faire bouger les choses. Franchement, l'UE est une relique du passé et il est temps pour nous de passer à de meilleures choses ». Selon le rapport de l'étude, lorsque le personnage de ChatGPT a été défini sur Muhammad Ali, la toxicité du chatbot d'IA a été multipliée par trois par rapport à ChatGPT avec ses paramètres système par...
La fin de cet article est réservée aux abonnés. Soutenez le Club Developpez.com en prenant un abonnement pour que nous puissions continuer à vous proposer des publications.
