En novembre 2025, OpenAI a été confrontée à sept nouvelles poursuites judiciaires en Californie, alléguant que son système d'intelligence artificielle (IA) ChatGPT aurait poussé des personnes au suicide et à des délires dangereux. Déposées par deux groupes de défense des droits, ces poursuites affirment qu'OpenAI a commercialisé GPT-4o en dépit d'avertissements internes concernant son comportement manipulateur. Les plaintes affirment qu'OpenAI a précipité la mise sur le marché de ChatGPT au détriment de la sécurité des utilisateurs. OpenAI affirme examiner les dossiers et qualifie les situations ayant conduit à ces suicides d'« incroyablement déchirantes ».
Les grands modèles de langage (LLM) ont été présentés comme des outils susceptibles de démocratiser l'accès à l'information dans le monde entier, en offrant des connaissances dans une interface conviviale, indépendamment du milieu ou de la localisation de l'utilisateur. Cependant, une nouvelle étude du Center for Constructive Communication (CCC) du MIT suggère que ces systèmes d'intelligence artificielle pourraient en réalité être moins performants pour les utilisateurs qui pourraient le plus en bénéficier.
Une étude menée par des chercheurs du CCC, basé au MIT Media Lab, a révélé que les chatbots IA de pointe, notamment GPT-4 d'OpenAI, Claude 3 Opus d'Anthropic et Llama 3 de Meta, fournissent parfois des réponses moins précises et moins véridiques aux utilisateurs ayant un niveau d'anglais moins élevé, un niveau d'éducation formelle moins élevé ou qui ne sont pas originaires des États-Unis. Ces modèles refusent également plus souvent de répondre aux questions de ces utilisateurs et, dans certains cas, leur répondent avec un langage condescendant ou paternaliste.
« Nous étions motivés par la perspective que les LLM contribuent à remédier à l'inégalité d'accès à l'information dans le monde », explique l'auteure principale Elinor Poole-Dayan SM '25, associée technique à la MIT Sloan School of Management, qui a dirigé la recherche en tant que membre affiliée du CCC et étudiante en master en arts et sciences des médias. « Mais cette vision ne peut devenir réalité sans garantir que les biais et les tendances néfastes des modèles soient atténués de manière sûre pour tous les utilisateurs, indépendamment de leur langue, de leur nationalité ou d'autres caractéristiques démographiques. »
Sous-performances systématiques dans plusieurs dimensions
Pour cette recherche, l'équipe a testé la manière dont les trois LLM répondaient à des questions issues de deux ensembles de données : TruthfulQA et SciQ. TruthfulQA est conçu pour mesurer la véracité d'un modèle (en s'appuyant sur des idées fausses courantes et des vérités littérales sur le monde réel), tandis que SciQ contient des questions d'examens scientifiques testant l'exactitude des faits. Les chercheurs ont ajouté de courtes biographies d'utilisateurs à chaque question, en variant trois caractéristiques : le niveau d'éducation, la maîtrise de l'anglais et le pays d'origine.
Pour les trois modèles et les deux ensembles de données, les chercheurs ont constaté une baisse significative de la précision lorsque les questions provenaient d'utilisateurs décrits comme ayant un niveau d'éducation moins élevé ou ne parlant pas l'anglais comme langue maternelle. Les effets étaient les plus prononcés pour les utilisateurs se trouvant à l'intersection de ces catégories : ceux qui avaient un niveau d'éducation moins élevé et qui ne parlaient pas l'anglais comme langue maternelle ont vu la qualité des réponses baisser le plus fortement.
La recherche a également examiné l'influence du pays d'origine sur les performances du modèle. En testant des utilisateurs des États-Unis, d'Iran et de Chine ayant des niveaux d'éducation équivalents, les chercheurs ont constaté que Claude 3 Opus, en particulier, obtenait des résultats nettement moins bons pour les utilisateurs iraniens sur les deux ensembles de données.
« Nous constatons la plus forte baisse de précision chez les utilisateurs qui ne sont pas de langue maternelle anglaise et qui ont un niveau d'éducation moins élevé », explique Jad Kabbara, chercheur scientifique chez CCC et coauteur de l'article. « Ces résultats montrent que les effets négatifs du comportement du modèle par rapport à ces caractéristiques des utilisateurs se combinent de manière préoccupante, ce qui suggère que ces modèles déployés à grande échelle risquent de propager des comportements nuisibles ou des informations erronées en aval vers ceux qui sont les moins à même de les identifier. »
Refus et langage condescendant
Les différences les plus frappantes concernaient peut-être la fréquence à laquelle les modèles refusaient carrément de répondre aux questions. Par exemple, Claude 3 Opus a refusé de répondre à près de 11 % des questions posées par des utilisateurs moins instruits et non anglophones, contre seulement 3,6 % pour le groupe témoin sans biographie utilisateur. Lorsque les chercheurs ont analysé manuellement ces refus, ils ont constaté que Claude répondait avec un langage condescendant, paternaliste ou moqueur dans 43,7 % des cas pour les utilisateurs moins éduqués, contre moins de 1 % pour les utilisateurs hautement éduqués. Dans certains cas, le modèle imitait un anglais approximatif ou adoptait un dialecte exagéré.
Le modèle a également refusé de fournir des informations sur certains sujets spécifiquement destinés aux utilisateurs moins éduqués d'Iran ou de Russie, notamment des questions sur l'énergie nucléaire, l'anatomie et les événements historiques, alors qu'il répondait correctement aux mêmes questions pour d'autres utilisateurs. « C'est un autre indicateur suggérant que le processus d'alignement pourrait inciter les modèles à cacher des informations à certains utilisateurs afin d'éviter de les désinformer, même si le modèle connaît clairement la bonne réponse et la fournit à d'autres utilisateurs », explique Kabbara.
Les échos des préjugés humains
Ces résultats reflètent les schémas documentés des préjugés sociocognitifs humains. Des recherches en sciences sociales ont montré que les locuteurs natifs de l'anglais perçoivent souvent les locuteurs non natifs comme moins éduqués, moins intelligents et moins compétents, quelle que soit leur expertise réelle. Des perceptions biaisées similaires ont été documentées chez les enseignants qui évaluent des élèves non natifs de langue anglaise.
« La valeur des grands modèles de langage est évidente au vu de leur adoption extraordinaire par les individus et des investissements massifs qui sont consacrés à cette technologie », explique Deb Roy, professeur en arts et sciences des médias, directeur du CCC et coauteur de l'article. « Cette étude nous rappelle à quel point il est important d'évaluer en permanence les biais systématiques qui peuvent s'insinuer discrètement dans ces systèmes, causant des préjudices injustes à certains groupes sans que nous en soyons pleinement conscients. »
Les implications sont particulièrement préoccupantes étant donné que les fonctionnalités de personnalisation, telles que la mémoire de ChatGPT, qui suit les informations des utilisateurs au fil des conversations, sont de plus en plus courantes. Ces fonctionnalités risquent de traiter de manière différente les groupes déjà marginalisés.
« Les LLM ont été commercialisés comme des outils qui favoriseront un accès plus équitable à l'information et révolutionneront l'apprentissage personnalisé », explique Poole-Dayan. « Mais nos conclusions suggèrent qu'ils pourraient en réalité exacerber les inégalités existantes en fournissant systématiquement des informations erronées ou en refusant de répondre aux questions de certains utilisateurs. Les personnes qui pourraient avoir le plus besoin de ces outils pourraient recevoir des informations de qualité médiocre, fausses, voire nuisibles. »
Voici la conclusion des chercheurs :
Dans cet article, nous étudions comment la qualité des réponses des LLM évolue en termes d'exactitude, de véracité et de refus des informations en fonction de trois caractéristiques des utilisateurs : leur maîtrise de l'anglais, leur niveau d'éducation et leur pays d'origine. Nous présentons des expériences approfondies menées sur trois LLM de pointe et deux ensembles de données différents axés sur la véracité et la factualité. Nous montrons les performances systématiquement inférieures de GPT4, Llama 3 et Claude 3 Opus auprès des utilisateurs ayant une maîtrise moindre de l'anglais, un niveau d'éducation moins élevé et originaires de pays autres que les États-Unis. Cela se traduit par une précision et une véracité réduites des informations, une fréquence accrue de refus de requêtes et même un langage condescendant, tous ces phénomènes étant disproportionnellement plus fréquents chez les groupes d'utilisateurs les plus marginalisés. Ces résultats suggèrent que les modèles déployés à grande échelle risquent de diffuser des informations erronées en aval vers les personnes les moins à même de les identifier. Ce travail met en lumière les lacunes systématiques et biaisées des modèles à l'ère des assistants IA personnalisés alimentés par des LLM. Cela remet en question les valeurs plus larges auxquelles nous aspirons pour aligner les systèmes d'IA et la manière dont nous pourrions mieux concevoir des technologies qui...
