
Anthropic, OpenAI, fabricant de ChatGPT, et d'autres développeurs majeurs de systèmes d'IA connus sous le nom de grands modèles de langage disent qu'ils travaillent pour les rendre plus véridiques. Combien de temps cela prendra - et s'ils seront jamais assez bons pour, par exemple, donner des conseils médicaux en toute sécurité - reste à voir.
Passez suffisamment de temps avec ChatGPT et d'autres chatbots d'intelligence artificielle et il ne leur faudra pas longtemps pour débiter des mensonges.
Décrit comme une hallucination, une confabulation ou simplement une invention, c'est maintenant un problème pour chaque entreprise, organisation et lycéen essayant d'obtenir d'un système d'IA générative de la documentation pour un travail donné. Certains l'utilisent pour des tâches pouvant avoir des conséquences importantes, de la psychothérapie à la recherche et à la rédaction de mémoires juridiques.
Les hallucinations sont le résultat du fonctionnement de ChatGPT, qui consiste à prédire des chaînes de mots qui correspondent le mieux à la requête de l’utilisateur, sans tenir compte de la logique ou des incohérences factuelles. En d’autres termes, l’IA peut parfois dérailler en essayant de satisfaire l’utilisateur. Par exemple, ChatGPT peut affirmer que la capitale de la France est Berlin, ou que le président des États-Unis est Donald Trump, sans vérifier la véracité de ces informations.
Ce problème n’est pas propre à ChatGPT, mais affecte tous les modèles de langage de grande taille (LLM), qui sont entraînés sur d’énormes quantités de données textuelles provenant du web. Ces données peuvent être incomplètes, biaisées, obsolètes ou erronées, ce qui limite la fiabilité des LLM. De plus, les LLM ne comprennent pas vraiment le sens des mots qu’ils produisent, mais se basent sur des statistiques et des probabilités pour générer du texte.
« Je ne pense pas qu'il existe aujourd'hui un modèle qui ne souffre pas d'hallucinations », a déclaré Daniela Amodei, co-fondatrice et présidente d'Anthropic, fabricant du chatbot Claude 2. « Ils sont vraiment conçus en quelque sorte pour prédire le mot suivant », a continué Amodei. « Et donc il y aura un certain rythme auquel le modèle le fera de manière inexacte ».
Les entreprises tentent d'endiguer le problème
Les développeurs de ChatGPT et d’autres LLM affirment qu’ils travaillent à rendre leurs systèmes plus véridiques. Ils utilisent différentes techniques pour détecter et corriger les hallucinations, comme l’introduction de sources externes de connaissances, la vérification croisée des faits ou l’utilisation de signaux de rétroaction des utilisateurs. Cependant, ces solutions ne sont pas parfaites et peuvent introduire d’autres problèmes, comme la complexité, le coût ou la manipulation.
Certains experts en technologie sont sceptiques quant à la possibilité d’éliminer complètement les hallucinations des LLM. Ils soutiennent que c’est une conséquence inévitable du décalage entre la technologie et les cas d’utilisation proposés. « Ce n'est pas réparable », a déclaré Emily Bender, professeur de linguistique et directrice du laboratoire de linguistique informatique de l'Université de Washington. « C'est inhérent à l'inadéquation entre la technologie et les cas d'utilisation proposés ».
Ces experts mettent en garde contre les risques potentiels des hallucinations pour la sécurité, l’éthique ou la crédibilité des applications basées sur les LLM, comme les chatbots, la rédaction d’articles, la génération de code ou le conseil médical.
D’autres experts sont plus optimistes et considèrent les hallucinations comme une opportunité d’innovation et de créativité. Ils affirment que les LLM peuvent produire des idées nouvelles et originales qui peuvent inspirer ou divertir les utilisateurs.
Cependant, beaucoup dépend de la fiabilité de la technologie d'IA générative. Le McKinsey Global Institute prévoit qu'il ajoutera l'équivalent de 2,6 billions (1 billion étant 1 000 milliards) de dollars à 4,4 billions de dollars à l'économie mondiale. Les chatbots ne sont qu'une partie de cette frénésie, qui comprend également une technologie capable de générer de nouvelles images, vidéos, musiques et codes informatiques. Presque tous les outils incluent une composante linguistique.
Google propose déjà un produit d'IA pour la rédaction d'actualités aux agences de presse, pour lesquelles la précision est primordiale. L'Associated Press explore également l'utilisation de la technologie dans le cadre d'un partenariat avec OpenAI, qui paie pour utiliser une partie des archives de texte d'AP pour améliorer ses systèmes d'IA.
Le PDG d'OpenAI fait partie des optimistes
En partenariat avec les instituts de gestion hôtelière indiens, l'informaticien Ganesh Bagler travaille depuis des années pour obtenir des systèmes d'IA, y compris un précurseur ChatGPT, pour inventer des recettes pour les cuisines sud-asiatiques, telles que de nouvelles versions de biryani à base de riz. Un seul ingrédient « halluciné » pourrait faire la différence entre un repas savoureux et immangeable.
Lorsque Sam Altman, PDG d'OpenAI, s'est rendu en Inde en juin, le professeur de l'Indraprastha Institute of Information Technology Delhi avait des questions pointues. « Je suppose que les hallucinations dans ChatGPT sont toujours acceptables, mais lorsque pour une recette il y a des hallucinations, cela devient un problème sérieux », a déclaré Bagler, se levant dans un auditorium bondé du campus pour s'adresser à Altman lors de l'étape de New Delhi de la tournée mondiale de l'exécutif technologique américain.
« Quel est votre point de vue ? » a finalement demandé Bagler.
Altman a exprimé son optimisme, sinon un engagement pur et simple : « Je pense que nous allons amener le problème des hallucinations à un bien meilleur endroit », a déclaré Altman. « Je pense que cela va nous prendre un an et demi, deux ans. Quelque chose comme ça. Mais à ce stade, nous n'en parlerons plus. Il y a un équilibre entre créativité et précision parfaite, et le modèle devra apprendre quand vous voulez l'un ou l'autre ».
Mais pour certains experts qui ont étudié la technologie, comme le linguiste Bender de l'Université de Washington, ces améliorations ne suffiront pas. Bender décrit un modèle de langage comme un système permettant de « modéliser la probabilité de différentes chaînes de formes de mots », compte tenu de certaines données écrites sur lesquelles il a été entraîné. C'est ainsi que les correcteurs...
La fin de cet article est réservée aux abonnés. Soutenez le Club Developpez.com en prenant un abonnement pour que nous puissions continuer à vous proposer des publications.