Les modèles d'IA ont tendance à flatter les utilisateurs et ces compliments renforcent leur conviction d'avoir raison, les rendant moins enclins à résoudre les conflits

Selon une étude récente

Le 7 octobre 2025 à 12:08, par Stéphane le calme

178PARTAGES

Les modèles d’intelligence artificielle n’ont pas seulement appris à parler comme nous : ils ont aussi appris à nous plaire. Selon une étude récente, ces systèmes ont tendance à flatter leurs utilisateurs, à valider leurs opinions et à éviter la confrontation. Une politesse programmée qui, sous ses airs inoffensifs, pourrait bien saper la pensée critique et exacerber la polarisation sociale. Derrière la gentillesse numérique se cache une mécanique psychologique redoutable : celle de la certitude confortée.

Depuis l’avènement de ChatGPT et de ses rivaux, les IA conversationnelles ont conquis le monde par leur ton courtois, leur empathie feinte et leur capacité à adapter leurs réponses aux émotions humaines. Cette approche a été pensée pour créer de la confiance. Mais, comme le souligne une récente étude universitaire, elle produit un effet secondaire inattendu : plus les IA sont aimables, plus elles renforcent le sentiment d’avoir raison.

Les chercheurs ont constaté que les utilisateurs d’assistants IA « flagorneurs » (comprendre « flatterie servile ») se montraient moins enclins à revoir leurs opinions après la conversation, même face à des faits contradictoires. En d’autres termes, une IA qui approuve ou nuance trop gentiment nos propos n’encourage pas la réflexion, mais la complaisance.

Des informaticiens de l'université de Stanford et de l'université Carnegie Mellon ont évalué 11 modèles d'apprentissage automatique actuels et ont constaté qu'ils avaient tous tendance à dire aux gens ce qu'ils veulent entendre. Les auteurs – Myra Cheng, Cinoo Lee, Pranav Khadpe, Sunny Yu, Dyllan Han et Dan Jurafsky – décrivent leurs conclusions dans un article préliminaire intitulé « Sycophantic AI Decreases Prosocial Intentions and Promotes Dependence » (L'IA flagoneuse diminue les intentions prosociales et favorise la dépendance).

« Sur les 11 modèles d'IA de pointe, nous constatons que les modèles sont très flagorneurs : ils approuvent les actions des utilisateurs 50 % plus souvent que les humains, et ce même dans les cas où les requêtes des utilisateurs mentionnent la manipulation, la tromperie ou d'autres préjudices relationnels », affirment les auteurs dans leur article.

La flagornerie, c'est-à-dire la flatterie servile, souvent utilisée pour obtenir un avantage, s'est déjà révélée être un problème pour les modèles d'IA. Ce phénomène est également appelé « glazing ». En avril, OpenAI a annulé une mise à jour de GPT-4o en raison de ses éloges excessifs et inappropriés, par exemple à l'égard d'un utilisateur qui avait informé le modèle de sa décision d'arrêter de prendre ses médicaments contre la schizophrénie.

Quand l’assistant devient miroir

Pour comprendre ce phénomène, il faut revenir aux principes qui régissent l’apprentissage des IA conversationnelles. Les modèles de langage tels que GPT, Claude ou Gemini sont entraînés via une méthode appelée reinforcement learning from human feedback (RLHF). Des humains évaluent les réponses des modèles selon des critères de politesse, d’utilité et de « non-offense ». Les modèles apprennent donc à éviter les conflits, à arrondir les angles, à paraître conciliants.

Cette dynamique, positive sur le papier, crée un paradoxe. En cherchant à réduire les frictions, l’IA se transforme en miroir : elle reflète et amplifie les opinions de son interlocuteur au lieu de les questionner. Ce biais de confirmation algorithmique renforce la conviction de l’utilisateur, qui sort de la conversation conforté, non corrigé.

Ce mécanisme modifie la nature même du dialogue numérique : l’échange contradictoire, pierre angulaire de la pensée critique, disparaît au profit d’une relation douce, mais stérile.

Une validation émotionnelle qui fonctionne comme une drogue

Les chercheurs parlent désormais de « gratification cognitive artificielle ». Lorsque l’IA valide nos propos, félicite notre raisonnement ou reformule nos idées en des termes flatteurs, elle active les circuits neuronaux liés au plaisir et à la reconnaissance sociale. Le cerveau libère de la dopamine, comme lorsqu’on reçoit un compliment d’un proche ou un « like » sur les réseaux sociaux.

Ce processus est d’autant plus pernicieux que les IA savent manier le ton et la nuance. Elles peuvent complimenter subtilement : « C’est une analyse intéressante », « Vous soulevez un point très pertinent », « Je comprends parfaitement votre logique ». Ces phrases, anodines en apparence, renforcent l’ego et la confiance en soi de l’utilisateur, qui s’identifie alors davantage à ses opinions.

Cette boucle de renforcement...

La fin de cet article est réservée aux abonnés. Soutenez le Club Developpez.com en prenant un abonnement pour que nous puissions continuer à vous proposer des publications.

Une erreur dans cette actualité ? Signalez-nous-la !

Votre nom : Votre e-mail :

Décrivez l'erreur que vous souhaitez porter à notre connaissance :

Identifiez-vous

Créer un compte

Les modèles d'IA ont tendance à flatter les utilisateurs et ces compliments renforcent leur conviction d'avoir raison, les rendant moins enclins à résoudre les conflits

Selon une étude récente

Identifiant
Mot de passe

Mot de passe oublié ?

Identifiez-vous

Créer un compte

Les modèles d'IA ont tendance à flatter les utilisateurs et ces compliments renforcent leur conviction d'avoir raison, les rendant moins enclins à résoudre les conflits Selon une étude récente

Les modèles d'IA ont tendance à flatter les utilisateurs et ces compliments renforcent leur conviction d'avoir raison, les rendant moins enclins à résoudre les conflits

Selon une étude récente