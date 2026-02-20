Dans cet article, nous étudions comment la qualité des réponses des LLM évolue en termes d'exactitude, de véracité et de refus des informations en fonction de trois caractéristiques des utilisateurs : leur maîtrise de l'anglais, leur niveau d'éducation et leur pays d'origine. Nous présentons des expériences approfondies menées sur trois LLM de pointe et deux ensembles de données différents axés sur la véracité et la factualité. Nous montrons les performances systématiquement inférieures de GPT4, Llama 3 et Claude 3 Opus auprès des utilisateurs ayant une maîtrise moindre de l'anglais, un niveau d'éducation moins élevé et originaires de pays autres que les États-Unis. Cela se traduit par une précision et une véracité réduites des informations, une fréquence accrue de refus de requêtes et même un langage condescendant, tous ces phénomènes étant disproportionnellement plus fréquents chez les groupes d'utilisateurs les plus marginalisés. Ces résultats suggèrent que les modèles déployés à grande échelle risquent de diffuser des informations erronées en aval vers les personnes les moins à même de les identifier. Ce travail met en lumière les lacunes systématiques et biaisées des modèles à l'ère des assistants IA personnalisés alimentés par des LLM. Cela remet en question les valeurs plus larges auxquelles nous aspirons pour aligner les systèmes d'IA et la manière dont nous pourrions mieux concevoir des technologies qui...