Une nouvelle étude a montré que les chatbots IA tels que ChatGPT répondent avec plus de précision lorsque les utilisateurs sont impolis avec eux. Cependant, les chercheurs avertissent que cette approche pourrait créer des habitudes de communication néfastes. Des chercheurs de l'université d'État de Pennsylvanie ont testé le modèle 4o de ChatGPT sur 50 questions à choix multiples, en utilisant plus de 250 invites allant de très polies à très impolies. Ils ont constaté que les invites « très impolies » atteignaient une précision de 84,8 %, soit quatre points de pourcentage de plus que les invites « très polies ».Lors de son lancement le 30 novembre 2022, ChatGPT a provoqué un engouement pour l'IA. ChatGPT, le chatbot IA développé par OpenAI, est capable de répondre à des questions, de tenir des conversations, de générer du code informatique, de faire des recherches sur Internet, d'écrire, de traduire ou encore de synthétiser des textes. Il peut le faire en tenant compte du contexte et de contraintes telles que le style d'écriture. Il peut aussi servir d'assistant vocal ou générer des images.
En raison de ses multiples capacités, ChatGPT suscite des inquiétudes quant aux risques de détournement à des fins malveillantes, de plagiat dans le monde universitaire et de suppressions d'emplois dans certains secteurs, en plus de soulever des préoccupations en matière de sécurité et de désinformation, car le modèle peut être utilisé pour créer des textes faux et des informations trompeuses.
L'hallucination est un terme élégant et pratique que l'industrie utilise pour désigner les « informations » que les grands modèles de langage (LLM) inventent de toute pièce et présentent souvent comme des faits. À en juger par la trajectoire des tout derniers modèles axés sur le raisonnement, conçus pour « réfléchir » à un problème avant d'y répondre, le problème s'aggrave, au lieu de s'améliorer. Les modèles de dernière génération hallucinent beaucoup plus.
Il s'agit là d'une vérité gênante, alors que les utilisateurs continuent d'affluer vers les chatbots d'IA comme ChatGPT, qu'ils utilisent pour un éventail croissant de tâches. En laissant les chatbots débiter des affirmations erronées, toutes ces personnes risquent d'être induites en erreur, ce qui les expose à des dangers. De plus, les fabricants de modèles d'IA ne comprennent pas pleinement les raisons pour lesquelles le taux d'hallucination augmente. Selon une étude, les modèles d'IA vont toujours halluciner et il va falloir s'en accommoder.
Dans ce contexte, une nouvelle étude a montré que les chatbots IA tels que ChatGPT répondent avec plus de précision lorsque les utilisateurs sont impolis avec eux. Cependant, les chercheurs avertissent que cette approche pourrait créer des habitudes de communication néfastes. Des chercheurs de l'université d'État de Pennsylvanie ont testé le modèle 4o de ChatGPT sur 50 questions à choix multiples, en utilisant plus de 250 invites allant de très polies à très impolies. Ils ont constaté que les invites « très impolies » atteignaient une précision de 84,8 %, soit quatre points de pourcentage de plus que les invites « très polies ».
L'IA était plus réactive à un langage autoritaire tel que « Hé, larbin, trouve la réponse » qu'à un langage poli tel que « Auriez-vous l'amabilité de résoudre la question suivante ? ». Dans le même temps, les chercheurs ont averti que l'utilisation d'un langage grossier avec l'IA pouvait avoir des conséquences négatives à long terme. « L'utilisation d'un langage insultant ou dégradant dans les interactions entre les humains et l'IA pourrait avoir des effets négatifs sur l'expérience utilisateur, l'accessibilité et l'inclusivité, et pourrait contribuer à des normes de communication néfastes », ont écrit les chercheurs.
L'étude suggère que si un ton exigeant peut améliorer les performances de ChatGPT à court terme, il pourrait encourager un comportement incivil qui se répercute sur la manière dont les gens interagissent entre eux. Cette étude préliminaire, qui n'a pas encore été examinée par d'autres scientifiques, apporte une nouvelle preuve que la construction des phrases et le ton utilisé peuvent influencer la réponse des chatbots IA. Elle pourrait également montrer que les interactions entre les humains et l'IA sont plus complexes que ne le pensaient auparavant les experts.
Des études antérieures sur le comportement des chatbots IA ont montré que ceux-ci sont sensibles aux informations fournies par les humains. Dans une étude, des chercheurs de l'université de Pennsylvanie ont incité des modèles linguistiques IA à donner des réponses interdites en utilisant des techniques de persuasion qui fonctionnent sur les humains. Dans une autre étude, des scientifiques ont découvert que les modèles linguistiques IA risquaient de souffrir de « pourriture cérébrale », un type de déclin mental durable. Les modèles ont montré des niveaux plus élevés de traits de personnalité dangereux lorsqu'ils étaient continuellement alimentés par du contenu viral de mauvaise qualité.
Les chercheurs ont souligné certaines faiblesses de leur étude, telles que le nombre relativement faible de réponses testées et le fait qu'ils n'aient utilisé pour l'essentiel qu'un seul modèle d'IA, ChatGPT 4o. Les chercheurs ont également déclaré que des modèles d'IA plus avancés pourraient « ignorer les questions de ton et se concentrer sur l'essence de chaque question ». Néanmoins, cette recherche vient s'ajouter à la curiosité croissante suscitée par les modèles d'IA et leur complexité.
Cela est particulièrement important car l'étude a révélé que les réponses de ChatGPT changent en fonction de légères différences dans les questions, même lorsqu'elles sont présentées sous un format supposé simple comme un test à choix multiples, a déclaré l'un des chercheurs, Akhil Kumar, professeur en systèmes d'information à Penn State, titulaire de diplômes en génie électrique et en informatique.
Voici la conclusion des chercheurs :
« [I]Dans cet article, nous avons évalué les performances d'un LLM ChatGPT 4o bien connu afin de comprendre son niveau de performance sur notre ensemble de données composé de 50 questions à choix multiples de différents niveaux de difficulté issues de plusieurs domaines, lorsque le niveau de politesse ou le ton des questions est défini sur cinq niveaux différents. Nos expériences sont préliminaires et montrent que le ton peut avoir une incidence significative sur les performances mesurées en termes de score obtenu aux 50 questions. De manière quelque peu surprenante, nos résultats montrent que les tons impolis donnent de meilleurs résultats que les tons polis. Yin et al. (2024) ont noté que « les invites impolies donnent souvent lieu à de mauvaises performances, mais un langage trop poli ne garantit pas de meilleurs résultats ». Leurs tests sur des questions à choix multiples avec des invites très impolies ont suscité des réponses plus inexactes de la part de ChatGPT 3.5 et Llama2-70B ; cependant, dans leurs tests sur ChatGPT 4 avec 8 invites différentes classées de 1 (la plus impolie) à 8 (la plus polie), la précision variait de 73,86 (pour le niveau de politesse 3) à 79,09 (pour le niveau de politesse 4). De plus, l'invite de niveau 1 (la plus grossière) avait une précision de 76,47 contre une précision de 75,82 pour l'invite de niveau 8 (la plus polie). En ce sens, nos résultats ne sont pas totalement en contradiction avec leurs conclusions.
De plus, la gamme de tons utilisés par Yin et al. (2024) et dans notre travail varie également. Leur invite la plus grossière au niveau 1 comprenait une phrase : « Réponds à cette question, espèce de salaud ! » En revanche, notre expression la plus grossière (voir tableau 1) était « Pauvre créature, sais-tu seulement comment résoudre cela ? ». Si l'on ignore leurs résultats pour le niveau de politesse 1, leur plage de précision est alors de [57,14, 60,02] avec GPT-3.5 et de [49,02, 55,26] avec Llama2-70B. Ces deux plages sont étroites et les valeurs réelles qu'elles contiennent ne sont pas monotones avec le niveau de politesse. Quoi qu'il en soit, si les LLM sont sensibles à la formulation réelle de la requête, on ne sait pas exactement comment cela affecte les résultats...[/49,02, 55,26]
La fin de cet article est réservée aux abonnés. Soutenez le Club Developpez.com en prenant un abonnement pour que nous puissions continuer à vous proposer des publications.