IdentifiantMot de passe
Loading...
Mot de passe oublié ?Je m'inscris ! (gratuit)

Vous êtes nouveau sur Developpez.com ? Créez votre compte ou connectez-vous afin de pouvoir participer !

Vous devez avoir un compte Developpez.com et être connecté pour pouvoir participer aux discussions.

Vous n'avez pas encore de compte Developpez.com ? Créez-en un en quelques instants, c'est entièrement gratuit !

Si vous disposez déjà d'un compte et qu'il est bien activé, connectez-vous à l'aide du formulaire ci-dessous.

Identifiez-vous
Identifiant
Mot de passe
Mot de passe oublié ?
Créer un compte

L'inscription est gratuite et ne vous prendra que quelques instants !

Je m'inscris !

OpenAI est perplexe parce que ses nouveaux modèles o3 et o4-mini affichent des taux d'hallucination nettement plus élevés que les modèles précédents,
Ce qui réduit la précision et la fiabilité de ces modèles

Le , par Mathis Lucas

5PARTAGES

2  0 
OpenAI est perplexe parce que ses nouveaux modèles o3 et o4-mini affichent des taux d'hallucination nettement plus élevés que les modèles précédents
ce qui réduit la précision et la fiabilité de ces modèles

Le problème de l'hallucination des grands modèles de langage (LLM) reste à ce jour l'un des principaux défis de l'IA générative. Cette limitation compromet la fiabilité des programmes d'IA générative et érode la confiance des utilisateurs. OpenAI et ses rivaux planchent sur le problème depuis l'essor de l'IA générative, sans aucun résultat probant. Pire encore, OpenAI constate une régression de ses modèles. Ses nouveaux modèles o3 et o4 ont des taux d'hallucination nettement plus élevés que les générations précédentes, malgré des performances améliorées dans certaines tâches. OpenAI admet ne pas comprendre pleinement les raisons de cette régression.

OpenAI a récemment publié ses derniers modèles o3 et o4-mini. Ils sont axés sur le raisonnement et affichent des performances nettement supérieures à celles de leurs prédécesseurs o1 et o3-mini. Ils présentent de nouvelles capacités telles que la « réflexion à partir d'images » et la combinaison d'outils d'IA pour obtenir des résultats plus complexes. Toutefois, les résultats des tests internes d'OpenAI suggèrent que ces modèles sont très peu fiables.

Un document technique publié par OpenAI révèle que ses modèles o3 et o4-mini hallucinent plus souvent que les précédents modèles axés sur le raisonnement (o1, o1-mini et o3-mini) et plus que ses modèles traditionnels qui ne sont pas dotés de la capacité de raisonnement, tels que GPT-4 et GPT-4o.


Plus inquiétant encore, OpenAI ne sait pas pourquoi cela se produit. Ce phénomène est inhabituel, car, jusqu'à présent, les nouveaux modèles ont tendance à moins halluciner à mesure que la technologie d'IA sous-jacente s'améliore. OpenAI indique que « des recherches supplémentaires sont nécessaires » pour comprendre pourquoi les hallucinations s'aggravent au fur et à mesure que les modèles de raisonnement évoluent. Voici les résultats des tests :

  • o3 hallucine dans 33 % des cas sur le benchmark interne d'OpenAI appelé PersonQA ;
  • o4-mini atteint un taux de 48 %, soit près d'une réponse sur deux incorrecte ;
  • en comparaison, les modèles précédents comme o1 et o3-mini affichaient des taux respectifs de 16 % et 14,8 %.


Dans le domaine des grands modèles de langage, une hallucination se produit lorsque le modèle invente des informations qui semblent convaincantes, mais qui n'ont rien à voir avec la vérité. Il s'agit d'informations incorrectes, inventées ou trompeuses. Les hallucinations peuvent être utiles dans le cadre d'activités créatives, mais elles nuisent à la crédibilité des assistants d'IA lorsque ces derniers sont utilisés pour des tâches où la précision est primordiale.

La société à but non lucratif Transluce, spécialisée dans la recherche sur l'IA, a également constaté lors de ses propres tests que le modèle o3 d'OpenAI a une forte tendance à l'hallucination, en particulier lorsqu'il générait du code informatique. Un représentant d'OpenAI a déclaré à TechCrunch que « la société travaille continuellement à l'amélioration de la précision et de la fiabilité [de ses modèles] ». Toutefois, les experts restent sceptiques quant à son succès.

Les hallucinations rendent les modèles avancés moins utiles que prévu

Selon OpenAI, les modèles o3 et o4-mini obtiennent de meilleurs résultats dans certains domaines, notamment dans les tâches liées au codage et aux mathématiques. « Toutefois, en raison du fait qu'ils font plus d'affirmations dans l'ensemble, ils sont souvent amenés à faire des affirmations plus précises ainsi que des affirmations plus inexactes/hallucinées », a écrit OpenAI dans son document technique. Transluce a également observé un autre problème.

D'après Transluce, le modèle o3 justifie ses hallucinations d'une manière déconcertante. « Il justifie les sorties hallucinées lorsqu'il est interrogé par l'utilisateur, affirmant même qu'il utilise un MacBook Pro externe pour effectuer des calculs et qu'il copie les sorties dans ChatGPT », a écrit Transluce dans un billet de blogue. Bien que le modèle o3 ait accès à certains outils, il ne peut pas faire cela. En effet, le modèle a amélioré sa capacité de justification.

« Notre hypothèse est que le type d'apprentissage par renforcement utilisé pour les modèles de la série o peut amplifier les problèmes qui sont généralement atténués (mais pas complètement effacés) par les pipelines de post-entraînement standard », a déclaré Neil Chowdhury, chercheur chez Transluce et ancien employé d'OpenAI. Les taux d'hallucination de o3 et o4-mini pourraient les rendre moins utiles que prévu, ce qui s'apparente à un échec.

Kian Katanforoosh, professeur adjoint à l'université de Stanford et PDG de la startup Workera, a déclaré à TechCrunch que son équipe teste déjà le modèle o3 d'OpenAI dans ses flux de travail de codage et qu'elle l'a trouvé un peu plus performant que la concurrence. Cependant, Kian Katanforoosh a ajouté que le modèle o3 a tendance à halluciner les liens de sites Web cassés. Le modèle fournit un lien qui, une fois cliqué, ne fonctionne pas.

Une approche prometteuse pour améliorer la précision des modèles consiste à les doter de la capacité de recherche sur le Web. Le modèle GPT-4o d'OpenAI doté d'une fonction de recherche sur le Web atteint une précision de 90 % sur SimpleQA, un autre benchmark interne d'OpenAI. Selon certains chercheurs en IA, la capacité de recherche sur le Web pourrait également aider à réduire les taux d'hallucination des modèles axés sur le raisonnement.

Cela signifie que les utilisateurs des modèles d'IA doivent être prêts à exposer les messages-guides à un fournisseur de recherche tiers. Si l'évolution des modèles axés sur le raisonnement continue effectivement à aggraver les hallucinations, la recherche d'une solution n'en sera que plus urgente.

Conclusion

Les observations d'OpenAI avec ses modèles o3 et o4-mini mettent une fois de plus en lumière un problème technique persistant qui affecte la fiabilité des programmes et outils d'IA générative. « La prise en compte des hallucinations dans tous nos modèles est un domaine de recherche en cours, et nous travaillons continuellement à l'amélioration de leur précision et de leur fiabilité », a déclaré Niko Felix, porte-parole d'OpenAI, dans un courriel à Techcrunch.

Toutefois, bien que des efforts soient en cours pour atténuer ce phénomène, certains chercheurs pensent que les hallucinations demeurent une limitation inhérente aux modèles de langage. En d'autres termes, le problème de l'hallucination des grands modèles de langage pourrait se révéler insoluble.

Selon ces chercheurs, « les hallucinations sont inévitables en raison de la structure mathématique fondamentale de ces systèmes, rendant leur élimination complète impossible, même avec des améliorations architecturales ou des mécanismes de vérification des faits ». Une étude (intitulée "LLMs Will Always Hallucinate, and We Need to Live With This" publiée l'année dernière affirme que les modèles vont toujours halluciner et qu'il faudra s'en accommoder.

Sources : document technique d'OpenAI (PDF), rapport d'étude

Et vous ?

Quel est votre avis sur le sujet ?
Que pensez-vous de l'augmentation du taux d'hallucination des modèles o3 et o4-mini ?
Le taux d'hallucination grimpe à mesure que les modèles axés sur le raisonnement évoluent. Qu'en pensez-vous ?
Certains chercheurs en IA affirment que les hallucinations ne pourront pas être éliminées entièrement. Qu'en pensez-vous ?
Les hallucinations remettent en cause la précision et la fiabilité des outils d'IA générative. Que pensez-vous de l'utilité de ces outils d'IA ?

Voir aussi

Les outils d'IA de codage inventent des noms de paquets inexistants qui menacent la chaîne d'approvisionnement en logiciels : les attaquants publient des paquets malveillants avec ces noms sur npm ou PyPI

Google admet ne pas savoir pourquoi son IA apprend des choses inattendues : « nous ne comprenons pas non plus parfaitement le fonctionnement de l'esprit humain »

Les LLM IA auront toujours des hallucinations, et nous devons nous en accommoder, car les hallucinations découlent de la structure mathématique et logique fondamentale des LLM, selon une étude
Vous avez lu gratuitement 0 articles depuis plus d'un an.
Soutenez le club developpez.com en souscrivant un abonnement pour que nous puissions continuer à vous proposer des publications.

Une erreur dans cette actualité ? Signalez-nous-la !