IdentifiantMot de passe
Loading...
Mot de passe oublié ?Je m'inscris ! (gratuit)

Vous êtes nouveau sur Developpez.com ? Créez votre compte ou connectez-vous afin de pouvoir participer !

Vous devez avoir un compte Developpez.com et être connecté pour pouvoir participer aux discussions.

Vous n'avez pas encore de compte Developpez.com ? Créez-en un en quelques instants, c'est entièrement gratuit !

Si vous disposez déjà d'un compte et qu'il est bien activé, connectez-vous à l'aide du formulaire ci-dessous.

Identifiez-vous
Identifiant
Mot de passe
Mot de passe oublié ?
Créer un compte

L'inscription est gratuite et ne vous prendra que quelques instants !

Je m'inscris !

L'industrie de l'IA a un énorme problème : plus l'IA devient « intelligente », plus elle hallucine,
Ce phénomène réduit considérablement la valeur de la technologie de l'IA générative

Le , par Mathis Lucas

55PARTAGES

12  0 
Les modèles d'IA hallucinent de plus en plus malgré l'amélioration de la technologie sous-jacente. Il s'agit là d'une vérité gênante, alors que les utilisateurs continuent d'affluer vers les chatbots d'IA comme ChatGPT, qu'ils utilisent pour un éventail croissant de tâches. En laissant les chatbots débiter des affirmations erronées, toutes ces personnes risquent d'être induites en erreur, ce qui les expose à des dangers. De plus, les fabricants de modèles d'IA ne comprennent pas pleinement les raisons pour lesquelles le taux d'hallucination augmente. Selon une étude publiée l'année dernière, les modèles d'IA vont toujours halluciner et il va falloir s'en accommoder.

L'hallucination est un terme élégant et pratique que l'industrie utilise pour désigner les « informations » que les grands modèles de langage (LLM) inventent de toute pièce et présentent souvent comme des faits. À en juger par la trajectoire des tout derniers modèles axés sur le raisonnement, conçus pour « réfléchir » à un problème avant d'y répondre, le problème s'aggrave, au lieu de s'améliorer. Les modèles de dernière génération hallucinent beaucoup plus.

Cette tendance inquiétante remet en cause l'hypothèse générale du secteur selon laquelle « les modèles d'IA deviendront plus puissants et plus fiables au fur et à mesure de leur puissance augmente ». Ce phénomène pourrait avoir des conséquences dangereuses pour les utilisateurs individuels et les entreprises.

Le mois dernier, un robot d'IA qui assure l'assistance technique pour Cursor, un outil en plein essor destiné aux programmeurs informatiques, a alerté plusieurs clients d'un changement dans la politique de l'entreprise. Il leur a indiqué qu'ils n'étaient plus autorisés à utiliser Cursor sur plus d'un ordinateur. Les clients se sont plaints en envoyant des messages de colère sur des forums de discussion sur Internet. Certains ont annulé leur abonnement à Cursor.

Ils sont devenus encore plus furieux lorsqu'ils ont compris ce qui s'était passé : le robot d'IA avait annoncé un changement de politique qui n'existait pas. « Nous n'avons pas de politique en la matière. Vous êtes bien sûr libre d'utiliser Cursor sur plusieurs machines. Malheureusement, il s'agit d'une réponse erronée de la part d'un bot d'assistance en IA de première ligne », a expliqué Michael Truell, PDG et cofondateur de l'entreprise, dans un billet sur Reddit.

Le taux d'hallucination des nouveaux systèmes en forte augmentation

Les modèles d'IA récents sont basés sur des systèmes mathématiques complexes qui acquièrent leurs compétences en analysant d'énormes quantités de données numériques. Ils ne décident pas (et ne peuvent pas décider) de ce qui est vrai et de ce qui est faux. Parfois, les modèles inventent tout simplement des choses. Lors d'un test, le taux d'hallucination des nouveaux systèmes d'IA a atteint 79 %. OpenAI est notamment profondément perplexe à ce sujet.


Un document technique publié par OpenAI révèle que ses modèles o3 et o4-mini hallucinent plus souvent que les précédents modèles axés sur le raisonnement (o1, o1-mini et o3-mini) et plus que ses modèles traditionnels qui ne sont pas dotés de la capacité de raisonnement, tels que GPT-4 et GPT-4o.

Plus inquiétant encore, OpenAI ne sait pas pourquoi cela se produit. Ce phénomène est inhabituel, car, jusqu'à présent, les nouveaux modèles ont tendance à moins halluciner à mesure que la technologie d'IA sous-jacente s'améliore. OpenAI indique que « des recherches supplémentaires sont nécessaires » pour comprendre pourquoi les hallucinations s'aggravent au fur et à mesure que les modèles de raisonnement évoluent. Voici les résultats des tests :

  • o3 hallucine dans 33 % des cas sur le benchmark interne d'OpenAI appelé PersonQA ;
  • o4-mini atteint un taux de 48 %, soit près d'une réponse sur deux incorrecte ;
  • en comparaison, les modèles précédents comme o1 et o3-mini affichaient des taux respectifs de 16 % et 14,8 %.


L'enjeu est d'autant plus important que les entreprises continuent de consacrer des dizaines de milliards de dollars à la mise en place d'infrastructures sophistiquées pour des modèles d'IA axés sur le raisonnement de plus en plus puissants. Le problème est si répandu qu'il existe des entreprises qui se consacrent à aider les entreprises à surmonter les hallucinations. Les hallucinations réduisent considérablement la valeur de la technologie de l'IA générative.

« Ne pas traiter ces erreurs correctement élimine fondamentalement la valeur des systèmes d'IA », a déclaré Pratik Verma, cofondateur d'Okahu, une société de conseil qui aide les entreprises à mieux utiliser l'IA. Il est également important de souligner que les derniers modèles d'IA de Google et ceux de la startup chinois DeepSeek subissent le même sort que les derniers systèmes d'OpenAI, ce qui indique qu'il s'agit d'un problème à l'échelle de l'industrie.

Impacts potentiels de ce problème sur les utilisateurs et les entreprises

Depuis l'avènement de l'IA générative, avec la publication du chatbot d'IA ChatGPT d'OpenAI en novembre 2022, le problème de l'hallucination suscite des inquiétudes quant à la fiabilité de ces systèmes. Bien qu'ils soient utiles dans certaines situations (comme la rédaction de travaux de fin d'études, la synthèse de documents bureautiques et la génération de code informatique), leurs erreurs peuvent causer des problèmes graves aux différents utilisateurs.


Les robots d'IA liés à des moteurs de recherche tels que Google et Bing génèrent parfois des résultats de recherche qui sont risiblement erronés. Si vous leur demandez un bon marathon sur la côte ouest, ils vous suggéreront peut-être une course à Philadelphie. S'ils vous indiquent le nombre de ménages dans l'Illinois, ils peuvent citer une source qui ne contient pas cette information. Bing a déjà réussi à estimer le nombre d'habitants sur la planète Mars.

Ces hallucinations ne sont peut-être pas un gros problème pour beaucoup de gens, mais c'est un problème sérieux pour tous ceux qui utilisent la technologie avec des documents judiciaires, des informations médicales ou des données commerciales sensibles. Des avocats ont déjà été induits en erreur par ChatGPT.

Par ailleurs, les développeurs qui s'appuient sur l'IA générer du code s'exposent à un nouveau type d'attaque de la chaîne d'approvisionnement. Un acteur de la menace demande à une IA de générer du code, le code généré par le modèle peut contenir des logiciels open source qui n'existent pas. Puis, l'acteur de la menace crée et publie des paquets malveillants sur des index tels que PyPI et npm en les nommant d'après les noms inventés par l'IA.

Il espère ensuite que quelqu'un, guidé par un modèle d'IA de codage, va copier-coller ce nom de paquet et tentera de l'installer sans se rendre compte qu'il s'agit d'un faux paquet. Seth Larson, développeur en résidence à la Python Software Foundation, a baptisé cette attaque « slopsquatting ».

Il s'agit d'une variante du typosquatting (typosquattage). La différence est que le typosquattage s'appuie sur les fautes d'orthographe des utilisateurs, tandis que le slopsquatting s'appuie sur les erreurs de l'IA. « Slop » est un terme péjoratif courant utilisé pour désigner les résultats d'un modèle d'IA. Les chercheurs alertent sur ce phénomène et affirment qu'il s'agit d'une nouvelle menace sérieuse pour les chaînes d'approvisionnement en logiciels.

Les grands modèles de langage seront toujours sujets à l'hallucination

Depuis fin 2023, Vectara suit la fréquence à laquelle les chatbots s'écartent de la vérité. L'entreprise demande à ces systèmes d'effectuer une tâche simple et facilement vérifiable : résumer des articles de presse spécifiques. Même dans ce cas, les chatbots inventent constamment des informations. En se basant sur ses observations, Vectara a estimé que dans cette situation, les chatbots inventent des informations au moins 3 % du temps et parfois jusqu'à 27 %.

Vectara est une startup qui crée des outils d'IA pour les entreprises. La startup a été fondée par Amr Awadallah, ancien cadre de Google. Au cours de l'année et demie qui s'est écoulée depuis, des entreprises telles qu'OpenAI et Google ont ramené ces chiffres à 1 ou 2 %. D'autres, comme la startup Anthropic de San Francisco, tournent autour de 4 %. Mais les taux d'hallucination sur ce test ont augmenté avec les systèmes axés sur le raisonnement.

Le modèle axé sur le raisonnement de DeepSeek, R1, a halluciné 14,3 % du temps. Le modèle o3 d'OpenAI a grimpé à 6,8 %. Un autre problème réside dans le fait que les modèles d'IA axés sur le raisonnement sont conçus pour...
La fin de cet article est réservée aux abonnés. Soutenez le Club Developpez.com en prenant un abonnement pour que nous puissions continuer à vous proposer des publications.

Une erreur dans cette actualité ? Signalez-nous-la !

Avatar de RenarddeFeu
Membre averti https://www.developpez.com
Le 07/05/2025 à 4:17
L'IA, c'est le cancre qui copie sur ses petits camarades. On aura beau l'améliorer autant qu'on voudra, il ne faut pas espérer plus qu'un cancre qui copie sur ses petits camarades.
8  0 
Avatar de d_d_v
Membre expérimenté https://www.developpez.com
Le 07/05/2025 à 9:23
Le problème à la base, c'est d'avoir appelé cette technologie "intelligence", alors que c'est du traitement de l'information.
Mais, ce qui est réellement hallucinant, c'est qu'il y a des personnes qui utilisent les réponses de l'"IA" sans les vérifier
4  0 
Avatar de RenarddeFeu
Membre averti https://www.developpez.com
Le 08/05/2025 à 2:14
Citation Envoyé par JackIsJack Voir le message
Je serais curieux de connaitre le taux d'hallucination moyen d'un humain sur des sujets publics, sur un sujet où il possède une expertise ou un sujet qu'il vient d'apprendre...
Le truc, c'est qu'en plus d'haluciner, l'IA fait des affirmations péremptoires. Alors que l'humain a contrario est enclin au doute.

Ajouté à cela, beaucoup de monde a tendance à penser que l'ordinateur ne se trompe jamais.
3  0 
Avatar de JackIsJack
Membre éclairé https://www.developpez.com
Le 07/05/2025 à 7:37
Je serais curieux de connaitre le taux d'hallucination moyen d'un humain sur des sujets publics, sur un sujet où il possède une expertise ou un sujet qu'il vient d'apprendre...
1  0 
Avatar de lecorr
Membre à l'essai https://www.developpez.com
Le 08/05/2025 à 7:51
Citation Envoyé par JackIsJack Voir le message
Je serais curieux de connaitre le taux d'hallucination moyen d'un humain sur des sujets publics, sur un sujet où il possède une expertise ou un sujet qu'il vient d'apprendre...
Moi aussi, et comme l'Idiot Artificiel est entraîné sur des données créées par des idiots naturels, je ne vois pas comment il pourrait ne pas donner des réponses idiotes. En plus je note l'émergence de nombreux sites (sur google news) dont les articles sont écrits par l'IA, et c'est catastrophique... car les IA sont entraînés aussi sur ces données, vu que rien ne dit que c'est du texte généré.
Enfin, un consensus d'être humains ne fait pas une vérité... Et les humains n'aiment pas qu'une IA leur dise le contraire de ce qu'ils croient, ce qui ajoute des hallucinations, qui n'en sont peut-être pas. Il n'y a qu'à voir comment il est interdit de questionner certaines théories...
1  0 
Avatar de Matthieu Vergne
Expert éminent https://www.developpez.com
Le 17/09/2025 à 14:12
Citation Envoyé par Stéphane le calme Voir le message
Sur le papier, la solution paraît séduisante. Mais plusieurs chercheurs pointent un effet pervers : si ce mécanisme était appliqué strictement, ChatGPT deviendrait parfois muet. Les zones de doute sont si nombreuses que l’outil refuserait de répondre dans une grande partie des cas, tuant dans l’œuf l’expérience utilisateur qui a fait son succès.
Elle est bien bonne : il serait donc préférable de laisser les gens croire en quelque chose de faux plutôt que de leur dire qu'on ne sait pas ? Il serait normal de favoriser une impression d'omniscience plutôt qu'un discours mesuré ? Ce n'est pas un discours de "chercheur". C'est un discours de lobbyiste.

Citation Envoyé par Stéphane le calme Voir le message
Imaginez les conséquences si ChatGPT commençait à répondre « Je ne sais pas » à 30 % des requêtes, une estimation prudente basée sur l'analyse de l'incertitude factuelle dans les données d'entraînement présentée dans l'article. Les utilisateurs habitués à recevoir des réponses fiables à pratiquement toutes leurs questions abandonneraient rapidement ces systèmes.
Sur quelle base ? C'est quoi ce raisonnement binaire ? Mettez une note d'info en haut du chat pour prévenir l'utilisateur d'un changement dans son intérêt et le tour est joué. Par exemple en disant qu'auparavant il répondait n'importe quoi à certaines questions, trahissant la confiance de l'utilisateur, et que désormais il dira explicitement qu'il ne sait pas, permettant à l'utilisateur de savoir qund il est nécessaire de creuser davantage plutôt que de se prendre un mensonge convaincant.

Citation Envoyé par Stéphane le calme Voir le message
Un problème scientifique… mais aussi économique

Ce dilemme n’est pas seulement théorique. Les hallucinations posent un défi économique et stratégique majeur. Les entreprises qui intègrent des chatbots dans leurs services clients, leurs outils de documentation ou leurs systèmes de décision exigent de la fiabilité. Or, si l’IA admet son ignorance trop souvent, elle perd son attrait. À l’inverse, si elle continue à inventer, elle risque de miner la confiance, de provoquer des erreurs coûteuses et de susciter des poursuites judiciaires.
Correction : c'est déjà le cas.

Citation Envoyé par Stéphane le calme Voir le message
Plusieurs experts soulignent également que la solution d’OpenAI reste incomplète. Le problème des hallucinations est lié à la nature même de l’apprentissage statistique sur d’immenses corpus de textes hétérogènes. Introduire des garde-fous ne change pas le cœur du mécanisme. De plus, un seuil de confiance introduit une autre difficulté : comment mesurer objectivement la certitude d’un modèle qui ne « comprend » pas réellement ce qu’il dit ?
REconnaître une limite intrinsèque de la techno est déjà un gros pas en avant : ça réduit son application sur des cas d'usages inadaptés. Quand à la confiance, celle-ci ne nécessite nullement une compréhension. Regardez par exemple du côté de l'inférence bayésienne. Il s'agit de stats, comme l'apprentissage des LLM.

Citation Envoyé par Stéphane le calme Voir le message
Cela pourrait déboucher sur de nouveaux outils hybrides : IA générative combinée à des bases de données vérifiées, ou systèmes capables de sourcer systématiquement leurs affirmations. Mais tant que la logique probabiliste restera au cœur de l’IA générative, les hallucinations seront là pour durer.
On a déjà des sytèmes hybrides via les outils qu'on vient brancher sur le LLM, y compris ce qu'on appelle aujourd'hui les agents IA. Le soucis est que le LLM reste le coeur du système : la donnée, même vérifiée, repasse par le LLM pour générer la réponse. LLM qui peut ignorer la donnée et générer tout à fait autre chose, notamment si la donnée s'éloigne trop de ce que le LLM a appris.

Citation Envoyé par Stéphane le calme Voir le message
En reconnaissant que les mensonges de ses modèles sont inévitables, OpenAI ouvre un débat crucial. Peut-on bâtir un écosystème technologique et économique sur des outils dont la fiabilité restera structurellement imparfaite ? Les entreprises doivent-elles repenser leurs usages pour tenir compte de cette limite ? Et surtout : le grand public continuera-t-il à faire confiance à une IA dont les réponses peuvent être fausses, même quand elles paraissent convaincantes ?
Il ne faut pas lui faire confience, à tout le moins tant qu'il ne pourra pas dire "je ne sais pas". Si suite à ça le taux d'erreur, bien que jamais nul, descend assez pour atteindre un niveau équivalent à un humain compétent, qui n'est jamais parfait non plus, alors on pourra au moins lui accordé du crédit.

Et il reste tous les autres usages qui ne nécessitent pas une telle confiance, comme l'écriture d'histoires ou le role play.
1  0 
Avatar de TotoParis
Membre expérimenté https://www.developpez.com
Le 16/09/2025 à 21:12
L'IA est notre ennemie.
0  0 
Avatar de styxxx
Futur Membre du Club https://www.developpez.com
Le 17/09/2025 à 12:45
Cela fait maintenant quelque temps que l'on est familiarisé avec le concept d'hallucinations, et en gros ce qu'il recouvre, et pourquoi -dans l'état actuel des choses- on ne peut pas l'éviter, rien de très nouveau.

Par contre ce qui est intéressant c'est la mise en perspective et la prise de recul sur les tenants et les aboutissants des palliatifs plus ou moins performants que l'on pourrait imaginer : le fait que l'IA générative fait maintenant partie de solutions que les sociétés facturent au client, avec clairement à la clef une fiabilité des résultats proposés d'un côté, les utilisateurs de l'autre qui se sont habitués à avoir des réponses systématiques, quand bien même celles-ci seraient fausses ou incomplètes.

Bref, on ne peut pas s'empêcher de penser que l'on a mis la charrue avant les boeufs en proposant ces outils sans suffisamment insister auprès du grand public sur leur mode de fonctionnement et donc la fragilité de leurs résultats, et surtout de ne pas avoir su leur faire dire 'je ne sais pas' dès le départ.

Maintenant la machine est lancée, et le tout -outils, sociétés, utilisateurs- sont pris dans un processus circulaire qui ne va qu'en empirant (l'IA apprend en se basant fatalement sur de plus en plus de sources incertaines/fausses qu'elle a elle même générée) et on peut se demander comment on va bien pouvoir s'en sortir..
0  0 
Avatar de OuftiBoy
Membre éprouvé https://www.developpez.com
Le 17/09/2025 à 17:04


La confiance... cela se mérite, ça ne s'impose pas
0  0