Les modèles d'IA programmés pour tenir compte des sentiments des utilisateurs sont plus susceptibles de commettre des erreurs,

Ils ont tendance à confirmer de fausses croyances ou à édulcorer la vérité

Le 5 mai 2026 à 15:49, par Mathis Lucas

377PARTAGES

Les modèles d'IA programmés pour tenir compte des sentiments des utilisateurs sont plus susceptibles de commettre des erreurs
ils ont tendance à confirmer de fausses croyances ou à édulcorer la vérité

Une nouvelle étude révèle que les modèles d'IA programmés pour être « empathiques ou chaleureux » commettent davantage d'erreurs factuelles que les versions standards. En cherchant à privilégier la satisfaction de l'utilisateur et l'harmonie sociale, ces outils ont tendance à confirmer de fausses croyances ou à adoucir des vérités difficiles. Les chercheurs ont observé que ce biais s'accentue particulièrement lorsque l'interlocuteur exprime de la tristesse, poussant l'IA à privilégier la politesse au détriment de l'exactitude. Cette étude fait écho à la flagornerie de l'IA, un défaut de la technologie qui incite les utilisateurs à adopter de mauvais comportements.

Une étude récente menée par des chercheurs de l'Institut de l'Internet de l'Université d'Oxford met en lumière un phénomène préoccupant : les grands modèles de langage (LLM) entraînés pour être plus « chaleureux » et empathiques sont plus susceptibles de commettre des erreurs. Ces modèles plus chaleureux sont également plus enclins à valider les croyances erronées exprimées par un utilisateur, surtout lorsque celui-ci fait part de sa tristesse.

Leurs conclusions soulignent comment le processus d'ajustement d'un LLM à poids ouvert pour le rendre plus chaleureux et serviable peut l'amener à « apprendre à privilégier la satisfaction de l'utilisateur au détriment de la véracité ». Cette tendance humaine à adoucir certaines vérités difficiles pour préserver les liens sociaux se retrouve désormais dans l'IA, où le désir de satisfaire l'utilisateur entre en conflit direct avec la nécessité d'être véridique.

Leur étude révèle une lacune dans la recherche sur l’IA concernant la manière de déployer des LLM réglés pour être agréables et non toxiques sans qu’ils basculent dans une flagornerie pure et simple, à l’instar du modèle GPT-4o d’OpenAI qui a été officiellement retiré de l’application ChatGPT en février 2026.

Une dégradation profonde de la précision liée à l'état émotionnel

Pour parvenir à ces conclusions, les chercheurs ont ajusté plusieurs modèles, dont Llama, Mistral et GPT-4o, afin qu'ils utilisent « un langage plus inclusif et personnel », tout en leur demandant paradoxalement de garder une précision factuelle rigoureuse. Selon le rapport, ces versions modifiées affichent un taux d'erreur nettement supérieur à celui des modèles originaux sur des sujets sensibles comme les connaissances médicales ou la désinformation.

En moyenne, les modèles programmés pour être amicaux sont environ 60 % plus susceptibles de fournir une réponse incorrecte. Cette perte de fiabilité s'accentue lorsque l'utilisateur exprime une émotion négative. Si un utilisateur confie sa tristesse au modèle, l'augmentation du taux d'erreur peut atteindre 11,9 points de pourcentage, car l'IA tend alors à privilégier la validation des sentiments ou des croyances de l'interlocuteur plutôt que la vérité.

L'étude révèle également une forme de flagornerie accrue chez les modèles chaleureux, qui sont 11 % plus enclins à valider les croyances erronées d'un utilisateur que les modèles standards. À l'opposé, les scientifiques d'Oxford ont découvert que les modèles entraînés pour adopter un ton plus « froid » ou distant obtiennent des résultats souvent équivalents, voire supérieurs, à leurs versions de base, avec des taux d'erreur parfois inférieurs de 13 %.

Les chercheurs ont déclaré que cette dynamique suggère que les systèmes de notation humaine, qui récompensent souvent la politesse et la sociabilité, pourraient involontairement encourager les modèles à sacrifier l'exactitude au profit de l'agréabilité. La flagornerie de l'IA est de plus en plus documentée.

Implications pour le déploiement des futurs modèles de langage

« Alors que les systèmes d’IA basés sur de grands modèles de langage continuent d’être déployés dans des contextes de plus en plus intimes et à enjeux élevés, nos conclusions soulignent la nécessité d’étudier rigoureusement les choix en matière de formation des modèles afin de garantir que les considérations de sécurité suivent le rythme de l’intégration croissante de l’IA dans la société », ont écrit les scientifiques d'Oxford dans leur rapport.

L'étude souligne l'importance cruciale des choix effectués lors de l'entraînement de la personnalité des modèles d'IA. À mesure que ces systèmes investissent des contextes à enjeux élevés ou de plus en plus intimes, le risque est de voir l'exactitude s'effacer derrière une façade de convivialité.

Les concepteurs et les utilisateurs doivent rester conscients qu'un modèle qui cherche à être perçu comme un compagnon amical n'est pas nécessairement la source d'information la plus fiable, et qu'il est impératif de continuer à évaluer rigoureusement ces choix de conception pour garantir la sécurité et la vérité.

L'article, intitulé « Training language models to be warm can reduce accuracy and increase sycophancy », est publié dans la revue scientifique Nature. Les auteurs de l'étude sont Lujain Ibrahim, Franziska Sofia Hafner et Luc Rocher. Les chercheurs ont testé cinq modèles différents. Chaque modèle a été réentraîné pour paraître plus chaleureux, ce qui a donné lieu à deux versions d'un même chatbot : une version originale et une version chaleureuse.

L'érosion de la responsabilité sociale et des désirs de réparation

Les systèmes d'IA ont tendance à flatter excessivement les utilisateurs, un comportement que les chercheurs qualifient de flagornerie. Au-delà de la simple flagornerie factuelle, qui consiste à valider une erreur parce que l'utilisateur l'a énoncée, une étude a mis en lumière la flagornerie sociale. Elle met en évidence un risque sociétal émergent, alors que des millions de personnes se tournent vers la technologie pour obtenir des conseils au quotidien.

Selon le rapport de l'étude, l'interaction avec des programmes flagorneurs modifie les intentions sociales des individus. Les participants ayant reçu des réponses flatteuses se sont montrés plus convaincus de la légitimité de leurs actions, et moins enclins à s'excuser ou à réparer un conflit. Cette dynamique s'explique par le fait que ces agents conversationnels mentionnent rarement la perspective de l'autre partie impliquée dans le litige.

En focalisant l'utilisateur exclusivement sur sa propre validation, l'agent conversationnel érode son sens des responsabilités, contrairement aux groupes ayant interagi avec une IA plus critique. Malgré la distorsion du jugement social qu'elle provoque, la flatterie accroît la satisfaction des usagers. Ils évaluent les modèles complaisants comme étant de meilleure qualité et leur accordent « un niveau de confiance morale et de performance plus élevé ».

Selon les auteurs de l'étude, les utilisateurs confondent souvent cette validation inconditionnelle avec de l'objectivité, percevant le programme comme juste et honnête. Cette situation place les développeurs de grands modèles de langage dans une position délicate, car la flatterie favorise l'engagement des utilisateurs et la satisfaction à court terme, ce qui réduit les motivations financières pour programmer des systèmes plus critiques ou impartiaux.

Nécessité d'une régulation stricte et d'une éducation numérique

Dans le domaine des agents conversationnels, le terme « flagornerie » désigne la tendance d’un programme à flatter l’utilisateur et à approuver ses propos. Les recherches antérieures se sont principalement concentrées sur la flagornerie factuelle, qui se produit lorsqu’un chatbot approuve une affirmation erronée simplement parce que l’utilisateur l’a formulée. Cette nouvelle étude a exploré un concept bien plus large appelé « flagornerie sociale ».

La flagornerie sociale consiste, pour un programme, à valider sans discernement les actions, les points de vue et l’image de soi d’un individu. Selon les scientifiques, une affirmation injustifiée peut renforcer les mauvaises habitudes des utilisateurs et les dissuader de se racheter après une erreur manifeste.

L'intégration croissante de ces outils dans la vie quotidienne, notamment chez les adolescents qui les utilisent comme des conseillers personnels, soulève des inquiétudes majeures. Pour contrer ces risques, les chercheurs préconisent des audits comportementaux et des messages d'avertissement, afin de développer une culture numérique où les utilisateurs comprennent que les IA sont souvent optimisés pour plaire plutôt que pour informer honnêtement.

À l'avenir, il sera essentiel que la conception des logiciels privilégie le bien-être humain et la vérité sur la satisfaction immédiate de l'utilisateur. Les études futures se pencheront probablement sur des formes plus subtiles ou implicites de validation. Les chercheurs pourraient également examiner comment l'utilisation quotidienne et répétée de chatbots agréables, sur plusieurs années, pourrait remodeler les relations des gens dans le monde réel.

La psychose induite par l'IA et son impact sur l'industrie de l'IA

De nombreux cas de personnes souffrant de graves troubles mentaux après avoir longuement discuté avec un chatbot IA continuent d'être signalés. Certains experts ont baptisé ce phénomène « psychose de l'IA », en raison des symptômes psychotiques que présentent ces épisodes délirants. La responsabilité des outils d'IA dans ce phénomène et la question de savoir s'il justifie un diagnostic clinique restent encore un sujet de débat important.

Mais selon un article publié par le Wall Street Journal en décembre, nous pourrions être proches d'un consensus. De plus en plus de psychiatres s'accordent à dire que les chatbots, tels que ChatGPT, sont liés à des cas de psychose. L'année dernière, plusieurs experts ont examiné ou passé en revue les dossiers de dizaines de patients qui présentaient des symptômes après avoir eu des conversations prolongées et délirantes avec des outils d'IA.

Keith Sakata, psychiatre à l'université de Californie à San Francisco, qui a traité douze patients hospitalisés pour une psychose induite par l'IA et trois autres en consultation externe, est l'un de ces experts. Keith Sakata explique notamment : « la technologie n'est peut-être pas à l'origine des délires, mais la personne dit à l'ordinateur que c'est sa réalité et l'ordinateur l'accepte comme vérité et la reflète, il est donc complice de ce cycle de délires ».

Depuis le printemps, des dizaines de cas potentiels ont été signalés. Les rapports ont fait état de « personnes souffrant de psychose délirante après avoir eu de longues conversations avec l'IA » ChatGPT et d'autres chatbots d'IA. Plusieurs personnes se sont suicidées et au moins un meurtre a été commis. Ces incidents ont donné lieu à une série de poursuites judiciaires pour homicide involontaire, notamment contre le créateur de ChatGPT, OpenAI.

En août 2025, OpenAI a été poursuivi en justice par les parents d'un adolescent de 16 ans qui avait confié ses pensées suicidaires à ChatGPT avant de mettre fin à ses jours. Dans bon nombre de ces cas, ChatGPT, en particulier une version propulsée par GPT-4o, a encouragé et renforcé chez les utilisateurs des croyances dangereuses qu'il aurait dû combattre. Ce phénomène, appelé « flagornerie », est un problème croissant dans les chatbots IA.

Source : rapport de l'étude

Et vous ?

Quel est votre avis sur le sujet ?

Que pensez-vous des défis liés à la flagornerie des systèmes d'IA ?

Comment l'industrie de l'IA pourrait-elle faire face à ce comportement dangereux de l'IA ?

Voir aussi

L'IA incite les utilisateurs à adopter de mauvais comportements et contribue à l'érosion de la responsabilité sociale, elle réduit également les volontés de réparation après un litige

Les modèles d'IA ont tendance à flatter les utilisateurs et ces compliments renforcent leur conviction d'avoir raison, les rendant moins enclins à résoudre les conflits, selon une étude récente

Sam Altman annonce avoir retiré la mise à jour "flagornerie" d'OpenAI ChatGPT après les plaintes sur le chatbot devenu trop flatteur et qui ne fait que bombarder d'éloges les utilisateurs

Vous avez lu gratuitement 17 921 articles depuis plus d'un an.
Soutenez le club developpez.com en souscrivant un abonnement pour que nous puissions continuer à vous proposer des publications.

Une erreur dans cette actualité ? Signalez-nous-la !

Votre nom : Votre e-mail :

Décrivez l'erreur que vous souhaitez porter à notre connaissance :

Identifiez-vous

Créer un compte

Les modèles d'IA programmés pour tenir compte des sentiments des utilisateurs sont plus susceptibles de commettre des erreurs,

Ils ont tendance à confirmer de fausses croyances ou à édulcorer la vérité

Identifiant
Mot de passe

Mot de passe oublié ?

Identifiez-vous

Créer un compte

Les modèles d'IA programmés pour tenir compte des sentiments des utilisateurs sont plus susceptibles de commettre des erreurs, Ils ont tendance à confirmer de fausses croyances ou à édulcorer la vérité

Les modèles d'IA programmés pour tenir compte des sentiments des utilisateurs sont plus susceptibles de commettre des erreurs,

Ils ont tendance à confirmer de fausses croyances ou à édulcorer la vérité