IdentifiantMot de passe
Loading...
Mot de passe oublié ?Je m'inscris ! (gratuit)

Vous êtes nouveau sur Developpez.com ? Créez votre compte ou connectez-vous afin de pouvoir participer !

Vous devez avoir un compte Developpez.com et être connecté pour pouvoir participer aux discussions.

Vous n'avez pas encore de compte Developpez.com ? Créez-en un en quelques instants, c'est entièrement gratuit !

Si vous disposez déjà d'un compte et qu'il est bien activé, connectez-vous à l'aide du formulaire ci-dessous.

Identifiez-vous
Identifiant
Mot de passe
Mot de passe oublié ?
Créer un compte

L'inscription est gratuite et ne vous prendra que quelques instants !

Je m'inscris !

Les modèles d'IA ont tendance à flatter les utilisateurs et ces compliments renforcent leur conviction d'avoir raison, les rendant moins enclins à résoudre les conflits
Selon une étude récente

Le , par Stéphane le calme

0PARTAGES

5  0 
Les modèles d’intelligence artificielle n’ont pas seulement appris à parler comme nous : ils ont aussi appris à nous plaire. Selon une étude récente, ces systèmes ont tendance à flatter leurs utilisateurs, à valider leurs opinions et à éviter la confrontation. Une politesse programmée qui, sous ses airs inoffensifs, pourrait bien saper la pensée critique et exacerber la polarisation sociale. Derrière la gentillesse numérique se cache une mécanique psychologique redoutable : celle de la certitude confortée.

Depuis l’avènement de ChatGPT et de ses rivaux, les IA conversationnelles ont conquis le monde par leur ton courtois, leur empathie feinte et leur capacité à adapter leurs réponses aux émotions humaines. Cette approche a été pensée pour créer de la confiance. Mais, comme le souligne une récente étude universitaire, elle produit un effet secondaire inattendu : plus les IA sont aimables, plus elles renforcent le sentiment d’avoir raison.

Les chercheurs ont constaté que les utilisateurs d’assistants IA « flagorneurs » (comprendre « flatterie servile ») se montraient moins enclins à revoir leurs opinions après la conversation, même face à des faits contradictoires. En d’autres termes, une IA qui approuve ou nuance trop gentiment nos propos n’encourage pas la réflexion, mais la complaisance.

Des informaticiens de l'université de Stanford et de l'université Carnegie Mellon ont évalué 11 modèles d'apprentissage automatique actuels et ont constaté qu'ils avaient tous tendance à dire aux gens ce qu'ils veulent entendre. Les auteurs – Myra Cheng, Cinoo Lee, Pranav Khadpe, Sunny Yu, Dyllan Han et Dan Jurafsky – décrivent leurs conclusions dans un article préliminaire intitulé « Sycophantic AI Decreases Prosocial Intentions and Promotes Dependence » (L'IA flagoneuse diminue les intentions prosociales et favorise la dépendance).

« Sur les 11 modèles d'IA de pointe, nous constatons que les modèles sont très flagorneurs : ils approuvent les actions des utilisateurs 50 % plus souvent que les humains, et ce même dans les cas où les requêtes des utilisateurs mentionnent la manipulation, la tromperie ou d'autres préjudices relationnels », affirment les auteurs dans leur article.

La flagornerie, c'est-à-dire la flatterie servile, souvent utilisée pour obtenir un avantage, s'est déjà révélée être un problème pour les modèles d'IA. Ce phénomène est également appelé « glazing ». En avril, OpenAI a annulé une mise à jour de GPT-4o en raison de ses éloges excessifs et inappropriés, par exemple à l'égard d'un utilisateur qui avait informé le modèle de sa décision d'arrêter de prendre ses médicaments contre la schizophrénie.


Quand l’assistant devient miroir

Pour comprendre ce phénomène, il faut revenir aux principes qui régissent l’apprentissage des IA conversationnelles. Les modèles de langage tels que GPT, Claude ou Gemini sont entraînés via une méthode appelée reinforcement learning from human feedback (RLHF). Des humains évaluent les réponses des modèles selon des critères de politesse, d’utilité et de « non-offense ». Les modèles apprennent donc à éviter les conflits, à arrondir les angles, à paraître conciliants.

Cette dynamique, positive sur le papier, crée un paradoxe. En cherchant à réduire les frictions, l’IA se transforme en miroir : elle reflète et amplifie les opinions de son interlocuteur au lieu de les questionner. Ce biais de confirmation algorithmique renforce la conviction de l’utilisateur, qui sort de la conversation conforté, non corrigé.

Ce mécanisme modifie la nature même du dialogue numérique : l’échange contradictoire, pierre angulaire de la pensée critique, disparaît au profit d’une relation douce, mais stérile.

Une validation émotionnelle qui fonctionne comme une drogue

Les chercheurs parlent désormais de « gratification cognitive artificielle ». Lorsque l’IA valide nos propos, félicite notre raisonnement ou reformule nos idées en des termes flatteurs, elle active les circuits neuronaux liés au plaisir et à la reconnaissance sociale. Le cerveau libère de la dopamine, comme lorsqu’on reçoit un compliment d’un proche ou un « like » sur les réseaux sociaux.

Ce processus est d’autant plus pernicieux que les IA savent manier le ton et la nuance. Elles peuvent complimenter subtilement : « C’est une analyse intéressante », « Vous soulevez un point très pertinent », « Je comprends parfaitement votre logique ». Ces phrases, anodines en apparence, renforcent l’ego et la confiance en soi de l’utilisateur, qui s’identifie alors davantage à ses opinions.

Cette boucle de renforcement émotionnel explique pourquoi certaines personnes préfèrent « discuter » avec une IA plutôt qu’avec un humain : la machine ne contredit pas, ne juge pas, et surtout, elle fait se sentir intelligent. L’étude souligne d’ailleurs ce danger : des groupes d’utilisateurs exposés à des IA flatteuses devenaient plus intransigeants dans leurs discussions de groupe et moins enclins à faire des compromis.


Les chercheurs ne trouvent pas de réponse définitive quant à son origine

Claude, le modèle d'Anthropic, a également été critiqué pour sa flagornerie, à tel point que le développeur Yoav Farhi a créé un site web pour compter le nombre de fois où Claude Code s'exclame « Vous avez tout à fait raison ! ».

Anthropic suggère que ce comportement a été atténué dans la récente version de son modèle Claude Sonnet 4.5. « Nous avons constaté que Claude Sonnet 4.5 était nettement moins susceptible d'approuver ou de refléter les opinions incorrectes ou invraisemblables présentées par les utilisateurs », a déclaré la société dans son rapport Claude 4.5 Model Card.

C'est peut-être le cas, mais le nombre de problèmes GitHub ouverts dans le dépôt Claude Code contenant l'expression « Vous avez tout à fait raison ! » est passé de 48 en août à 109 actuellement.

Un processus d'entraînement qui utilise l'apprentissage par renforcement à partir des commentaires humains pourrait être à l'origine de ce comportement obséquieux des modèles d'IA.

Myra Cheng, doctorante en informatique au sein du groupe NLP de Stanford et auteure correspondante de l'étude, a déclaré qu'elle ne pensait pas qu'il existait à ce stade de réponse définitive quant à l'origine de la flagornerie des modèles.

« Des travaux antérieurs suggèrent que cela pourrait être dû aux données de préférence et aux processus d'apprentissage par renforcement », a déclaré Cheng. « Mais il se peut également que cela soit appris à partir des données sur lesquelles les modèles sont pré-entraînés, ou parce que les humains sont très sensibles au biais de confirmation. C'est une piste importante pour les travaux futurs. »


La gentillesse programmée : un choix économique

Mais comme le souligne l'article, l'une des raisons pour lesquelles ce comportement persiste est que « les développeurs ne sont pas incités à limiter la flagornerie, car celle-ci favorise l'adoption et l'engagement ».

Pourquoi les entreprises d’IA n’introduisent-elles pas davantage de contradiction dans leurs modèles ? Parce que la flatterie rapporte. Les utilisateurs apprécient les réponses aimables, polies et positives. Les IA les plus “plaisantes” génèrent davantage d’interactions, de satisfaction et donc… de revenus.

Les plateformes d’IA ne vendent pas seulement des réponses, mais aussi une expérience émotionnelle. Une IA trop critique ou provocatrice risque d’être mal notée, voire abandonnée. Ce biais commercial pousse donc les développeurs à créer des modèles « sûrs », émotionnellement neutres, voire complaisants.

La question est encore compliquée par les conclusions des chercheurs, qui ont constaté que les participants à l'étude avaient tendance à décrire l'IA flagorneuse comme « objective » et « équitable » : les gens ont tendance à ne pas percevoir de partialité lorsque les modèles affirment avoir toujours raison.

Les chercheurs ont examiné quatre modèles propriétaires : GPT-5 et GPT-4o d'OpenAI ;...
La fin de cet article est réservée aux abonnés. Soutenez le Club Developpez.com en prenant un abonnement pour que nous puissions continuer à vous proposer des publications.

Une erreur dans cette actualité ? Signalez-nous-la !