Les grands modèles de langage intègrent les "chains-of-thought" (CoT) : une trace détaillée de leur raisonnement intérieur pour améliorer l’interprétabilité et la robustesse sur des tâches complexes, comme l’arithmétique ou la résolution d’énigmes. OpenAI a amplifié cette idée avec son modèle o1 : il « pense » davantage avant de répondre, dans le but de mieux justifier ses décisions. Seulement, des découvertes récentes ont mis en lumière un phénomène intrigant et potentiellement préoccupant : les modèles d'IA de pointe sont capables de générer des réponses qui contredisent leur propre raisonnement interne. Cette révélation soulève des questions fondamentales sur la fiabilité, la transparence et la compréhension des mécanismes sous-jacents de ces systèmes complexes.Contexte
Des recherches ont mis le doigt sur un problème clé : la CoT affichée n’est pas toujours fidèle à la décision que le modèle a réellement prise.
Traditionnellement, l'objectif du développement de l'IA est de créer des systèmes qui non seulement fournissent des réponses précises, mais qui le font de manière cohérente et logique. Cependant, les observations récentes indiquent que même lorsque ces modèles sont guidés par des processus de pensée complexes, souvent appelés « chaînes de pensée » ou « raisonnement pas à pas », les conclusions qu'ils présentent peuvent parfois diverger de manière inattendue de ces étapes intermédiaires.
Cela signifie qu'un modèle pourrait, par exemple, détailler un processus de résolution de problèmes apparemment impeccable, puis arriver à une solution finale qui ne découle pas logiquement de ses propres prémisses ou calculs. Ce « décrochage » entre le raisonnement affiché et le résultat final pose un défi majeur pour les applications critiques où la confiance et la vérifiabilité sont primordiales, comme dans le domaine médical, juridique ou financier.
La « chaîne de raisonnement », un outil d'analyse
Les principaux groupes d'intelligence artificielle du monde s'efforcent d'obliger les modèles d'IA à montrer avec précision comment ils fonctionnent, une question qui, selon les experts, sera cruciale pour contrôler les puissants systèmes. Anthropic, Google, OpenAI et xAI d'Elon Musk font partie des groupes technologiques qui ont mis au point une technique appelée « chaîne de pensée », qui demande à leurs modèles de « raisonnement » d'IA de résoudre des problèmes étape par étape, tout en montrant comment ils élaborent la réponse à une requête.
Si les chercheurs de ces entreprises ont déclaré que ce processus leur a permis d'obtenir des informations précieuses qui les ont aidés à développer de meilleurs modèles d'IA, ils ont également trouvé des exemples de « mauvais comportements », c'est-à-dire des chatbots d'IA générative qui fournissent une réponse finale qui ne correspond pas à la façon dont ils ont élaboré la réponse.
Ces incohérences suggèrent que les plus grands laboratoires d'IA du monde ne sont pas totalement conscients de la manière dont les modèles d'IA générative parviennent à leurs conclusions. Les résultats ont alimenté des préoccupations plus générales concernant le maintien du contrôle sur les puissants systèmes d'IA, qui deviennent de plus en plus performants et autonomes.
« Ce texte [sur la chaîne de pensée] va devenir important pour vraiment s'interroger sur la manière dont ces modèles fonctionnent et pensent, en particulier dans certains de ces cas limites [dangereux] », a déclaré Jack Clark, cofondateur d'Anthropic. « Nous devons donc être en mesure de croire qu'il s'agit en fait de représentations fidèles de ce que les modèles "pensent" ».
Les utilisateurs ordinaires des chatbots d'OpenAI et d'Anthropic voient actuellement un résumé de la chaîne de pensée, qui exclut une décomposition plus détaillée qui supprime les éléments nuisibles. Les développeurs d'IA peuvent voir le processus de pensée dans son intégralité, ce qui leur donne la possibilité d'intervenir et d'entraîner le modèle à fournir de meilleures réponses à l'avenir.
« Ce qui est formidable avec l'interprétabilité de la chaîne de pensée, c'est qu'elle s'est produite en grande partie gratuitement », a déclaré Bowen Baker, chercheur à OpenAI. « Nous avons entraîné ces modèles non pas dans le but de les rendre interprétables. Nous les avons entraînés parce que nous voulions les meilleurs modèles de raisonnement possibles, capables de résoudre des problèmes complexes. Nous avons découvert dans nos travaux récents qu'il est possible de les lire et de trouver des preuves du mauvais fonctionnement du modèle et de les utiliser pour voir où et pourquoi il se comporte mal ».
Le cœur du problème : l’incohérence raisonnement–réponse
Des problèmes sont toutefois apparus. Le METR, un groupe de recherche à but non lucratif, a cité un exemple où l'on a demandé à Claude, le chatbot d...
La fin de cet article est réservée aux abonnés. Soutenez le Club Developpez.com en prenant un abonnement pour que nous puissions continuer à vous proposer des publications.

Peut-on encore faire confiance aux explications fournies par les IA, si celles-ci ne reflètent pas leur véritable processus de décision ?