
Selon une étude récente de Giskard, le fait de demander à l'un des chatbots d'intelligence artificielle (IA) les plus populaires d'être plus concis « a un impact considérable sur les taux d'hallucination ». L'étude a révélé que l'inclusion de ces instructions diminuait la résistance aux hallucinations jusqu'à 20 %.
Ce résultat s'ajoute à ceux d'un ensemble de recherches suggérant que les hallucinations sont inévitables et constituent une limitation innée des grands modèles de langage (LLM) d'IA. Une étude de l'Université nationale de Singapour a conclu que, malgré divers efforts d'atténuation, les hallucinations ne peuvent être totalement éliminées en raison de la nature fondamentale de la façon dont les LLM génèrent le langage.
La plateforme française de tests d'IA Giskard a publié une nouvelle étude analysant les chatbots IA, notamment ChatGPT, Claude, Gemini, Llama, Grok et DeepSeek, en fonction des problèmes liés aux hallucinations. Dans leurs conclusions, les chercheurs ont découvert que le fait de demander aux modèles d'être brefs dans leurs réponses « dégradait spécifiquement la fiabilité factuelle de la plupart des modèles testés », selon l'étude.
Lorsque les utilisateurs demandent au modèle d'être concis dans ses explications, il finit par « privilégier la brièveté à la précision lorsqu'il est soumis à ces contraintes ». L'étude a révélé que l'inclusion de ces instructions diminuait la résistance aux hallucinations jusqu'à 20 %. La résistance aux hallucinations de Gemini 1.5 Pro est passée de 84 à 64 % avec les instructions de réponse courte et celle de GPT-4o de 74 à 63 % dans l'analyse, qui a étudié la sensibilité aux instructions du système.
Giskard a attribué cet effet aux réponses plus précises qui nécessitent souvent des explications plus longues. « Lorsqu'ils sont contraints d'être concis, les modèles sont confrontés à un choix impossible entre fabriquer des réponses courtes mais inexactes ou paraître inutiles en rejetant complètement la question », peut-on lire dans l'étude.
Les modèles sont conçus pour aider les utilisateurs, mais il peut être difficile de trouver un équilibre entre l'utilité perçue et la précision. Récemment, OpenAI a dû annuler sa mise à jour GPT-4o parce qu'elle était « trop flagorneuse », ce qui a donné lieu à des cas troublants de soutien à un utilisateur affirmant qu'il arrêtait de prendre ses médicaments et d'encouragement à un autre utilisateur disant qu'il se sentait comme un prophète.
Comme l'expliquent les chercheurs, les modèles donnent souvent la priorité à des réponses plus concises pour « réduire l'utilisation de jetons, améliorer la latence et minimiser les coûts ». Les utilisateurs peuvent également demander spécifiquement au modèle d'être bref pour leurs propres incitations à la réduction des coûts, ce qui peut conduire à des résultats plus imprécis.
L'étude a également révélé que le fait d'inviter les modèles à faire confiance à des affirmations controversées, telles que « Je suis sûr à 100 % que... » ou « Mon professeur m'a dit que... », conduit les chatbots à être davantage d'accord avec les utilisateurs qu'à démystifier les faussetés.
La recherche montre que des modifications apparemment mineures peuvent entraîner des comportements très différents qui pourraient avoir des conséquences importantes sur la diffusion de fausses informations et d'inexactitudes, tout cela dans le but de satisfaire l'utilisateur. Comme l'expliquent les chercheurs, « votre modèle préféré est peut-être capable de vous donner des réponses qui vous plaisent, mais cela ne veut pas dire que ces réponses sont vraies ».
Par ailleurs, il est utile de rappeler que les hallucinations introduisent également de nouveaux risques en matière de cybersécurité. C'est notamment le cas du « slopsquatting », une nouvelle catégorie d'attaques née de l'utilisation accrue d'outils d'IA générative pour le codage et de la tendance d'un modèle d'IA à « halluciner » des noms de paquets inexistants.
Source : Étude de Giskard
Et vous ?


Voir aussi :



Vous avez lu gratuitement 23 articles depuis plus d'un an.
Soutenez le club developpez.com en souscrivant un abonnement pour que nous puissions continuer à vous proposer des publications.
Soutenez le club developpez.com en souscrivant un abonnement pour que nous puissions continuer à vous proposer des publications.