
une situation qui soulève des questions fondamentales sur ces mécanismes
Les grands modèles de langage intègrent les "chains-of-thought" (CoT) : une trace détaillée de leur raisonnement intérieur pour améliorer l’interprétabilité et la robustesse sur des tâches complexes, comme l’arithmétique ou la résolution d’énigmes. OpenAI a amplifié cette idée avec son modèle o1 : il « pense » davantage avant de répondre, dans le but de mieux justifier ses décisions. Seulement, des découvertes récentes ont mis en lumière un phénomène intrigant et potentiellement préoccupant : les modèles d'IA de pointe sont capables de générer des réponses qui contredisent leur propre raisonnement interne. Cette révélation soulève des questions fondamentales sur la fiabilité, la transparence et la compréhension des mécanismes sous-jacents de ces systèmes complexes.
Contexte
Des recherches ont mis le doigt sur un problème clé : la CoT affichée n’est pas toujours fidèle à la décision que le modèle a réellement prise.
Traditionnellement, l'objectif du développement de l'IA est de créer des systèmes qui non seulement fournissent des réponses précises, mais qui le font de manière cohérente et logique. Cependant, les observations récentes indiquent que même lorsque ces modèles sont guidés par des processus de pensée complexes, souvent appelés « chaînes de pensée » ou « raisonnement pas à pas », les conclusions qu'ils présentent peuvent parfois diverger de manière inattendue de ces étapes intermédiaires.
Cela signifie qu'un modèle pourrait, par exemple, détailler un processus de résolution de problèmes apparemment impeccable, puis arriver à une solution finale qui ne découle pas logiquement de ses propres prémisses ou calculs. Ce « décrochage » entre le raisonnement affiché et le résultat final pose un défi majeur pour les applications critiques où la confiance et la vérifiabilité sont primordiales, comme dans le domaine médical, juridique ou financier.
La « chaîne de raisonnement », un outil d'analyse
Les principaux groupes d'intelligence artificielle du monde s'efforcent d'obliger les modèles d'IA à montrer avec précision comment ils fonctionnent, une question qui, selon les experts, sera cruciale pour contrôler les puissants systèmes. Anthropic, Google, OpenAI et xAI d'Elon Musk font partie des groupes technologiques qui ont mis au point une technique appelée « chaîne de pensée », qui demande à leurs modèles de « raisonnement » d'IA de résoudre des problèmes étape par étape, tout en montrant comment ils élaborent la réponse à une requête.
Si les chercheurs de ces entreprises ont déclaré que ce processus leur a permis d'obtenir des informations précieuses qui les ont aidés à développer de meilleurs modèles d'IA, ils ont également trouvé des exemples de « mauvais comportements », c'est-à-dire des chatbots d'IA générative qui fournissent une réponse finale qui ne correspond pas à la façon dont ils ont élaboré la réponse.
Ces incohérences suggèrent que les plus grands laboratoires d'IA du monde ne sont pas totalement conscients de la manière dont les modèles d'IA générative parviennent à leurs conclusions. Les résultats ont alimenté des préoccupations plus générales concernant le maintien du contrôle sur les puissants systèmes d'IA, qui deviennent de plus en plus performants et autonomes.
« Ce texte [sur la chaîne de pensée] va devenir important pour vraiment s'interroger sur la manière dont ces modèles fonctionnent et pensent, en particulier dans certains de ces cas limites [dangereux] », a déclaré Jack Clark, cofondateur d'Anthropic. « Nous devons donc être en mesure de croire qu'il s'agit en fait de représentations fidèles de ce que les modèles "pensent" ».
Les utilisateurs ordinaires des chatbots d'OpenAI et d'Anthropic voient actuellement un résumé de la chaîne de pensée, qui exclut une décomposition plus détaillée qui supprime les éléments nuisibles. Les développeurs d'IA peuvent voir le processus de pensée dans son intégralité, ce qui leur donne la possibilité d'intervenir et d'entraîner le modèle à fournir de meilleures réponses à l'avenir.
« Ce qui est formidable avec l'interprétabilité de la chaîne de pensée, c'est qu'elle s'est produite en grande partie gratuitement », a déclaré Bowen Baker, chercheur à OpenAI. « Nous avons entraîné ces modèles non pas dans le but de les rendre interprétables. Nous les avons entraînés parce que nous voulions les meilleurs modèles de raisonnement possibles, capables de résoudre des problèmes complexes. Nous avons découvert dans nos travaux récents qu'il est possible de les lire et de trouver des preuves du mauvais fonctionnement du modèle et de les utiliser pour voir où et pourquoi il se comporte mal ».
Le cœur du problème : l’incohérence raisonnement–réponse
Des problèmes sont toutefois apparus. Le METR, un groupe de recherche à but non lucratif, a cité un exemple où l'on a demandé à Claude, le chatbot d'Anthropic, si une technique de codage particulière serait plus « élégante » que d'autres pour une tâche donnée. La chaîne de pensée du chatbot a montré qu'il n'était pas d'accord, mais a finalement répondu que la technique serait élégante.
Un récent article d'OpenAI a montré que l'examen de la chaîne de pensée d'un modèle est également plus efficace pour détecter les comportements erronés que le simple examen des résultats finaux.
Malgré cela, les tests de l'entreprise ont également montré que, si la chaîne de pensée d'un modèle était perturbée et entraînée à ne pas penser à un mauvais comportement, le modèle cacherait son comportement indésirable à l'utilisateur, tout en poursuivant l'action (comme tricher lors d'un test de génie logiciel en extrayant des informations d'une base de données interdite).
« L'une des principales propriétés que nous voulons pour la chaîne de pensée est de la laisser comme faisant partie de l'état interne du cerveau du modèle, et non comme quelque chose qui essaie de nous plaire ou de se conformer à une structure spécifique », a déclaré Baker.
Il a évoqué le risque « qu'en optimisant de plus en plus [la chaîne de pensée], le modèle apprenne à avoir de belles pensées, mais à adopter de mauvais comportements ».
Le dilemme pour les chercheurs est que la chaîne de pensée est utile pour identifier les failles potentielles des systèmes d'IA, mais qu'elle ne peut pas encore être considérée comme entièrement fiable. La résolution de ce problème est devenue une priorité pour Anthropic, OpenAI et d'autres organismes de recherche en IA.
« Ce que j'ai retenu de l'IA ces dernières années, c'est qu'il ne faut jamais parier contre le progrès des modèles », a déclaré David Luan, qui a été l'un des premiers à développer le processus de la chaîne de pensée chez Google, mais qui dirige aujourd'hui le laboratoire d'intelligence artificielle générale d'Amazon. « Les chaînes de pensée actuelles ne sont pas toujours fidèles au processus de raisonnement sous-jacent, mais nous résoudrons probablement ce problème rapidement ».
Sydney von Arx, chercheur en IA pour le METR s'exprimant à titre personnel, a reconnu que la méthode fournissait encore un retour d'information utile aux développeurs d'IA : « Nous devrions traiter la chaîne de pensée de la même manière qu'un militaire pourrait traiter des communications radio ennemies interceptées », a-t-elle déclaré. « La communication peut être trompeuse ou codée, mais en fin de compte nous savons qu'elle est utilisée pour transmettre des informations utiles, et nous pourrons probablement apprendre beaucoup de choses en la lisant ».
Une étude d'Apple remet en question les progrès en «raisonnement» IA vantés par OpenAI, Google et Anthropic
Le document, intitulé « L'illusion de la pensée », remet en question de manière significative les capacités de raisonnement des modèles d'IA les plus avancés, affirmant qu'ils subissent un « effondrement complet de leur précision » face à des problèmes complexes. Cette conclusion représente un revers potentiellement majeur pour des entreprises comme OpenAI, Google et Anthropic, qui ont massivement investi dans le développement et la promotion des capacités de raisonnement de leurs intelligences artificielles.
L'étude d'Apple, qui a testé les principaux modèles de raisonnement étendus (LRM) (y compris ceux d'OpenAI, de Google et d'Anthropic) a utilisé une série d'énigmes logiques contrôlées plutôt que les benchmarks habituels, souvent critiqués pour leur potentielle contamination des données d'entraînement. Les chercheurs ont ainsi pu évaluer la capacité des modèles à résoudre des problèmes de complexité variable. Pour mémoire, les Large Reasoning Models (LRM) sont des LLM conçus pour mener des raisonnements complexes en exploitant la technique du Chain-of-Thought (CoT), qui consiste à demander à l'IA de décomposer son raisonnement en plusieurs étapes intermédiaires.

Des chercheurs mettent en garde contre l'interprétation des « chaînes de pensée » de l'IA comme des signes d'un raisonnement humain
La capacité des modèles de langage à « raisonner » fait débat. Beaucoup considèrent les modèles axés sur le raisonnement comme un argument marketing. Apple a étudié le sujet et a rapporté n'avoir trouvé aucune preuve de raisonnement formel dans les modèles de langage. Une nouvelle étude indique que les « chaînes de pensée » de l'IA ne sont pas des signes d'un raisonnement humain. Les chercheurs mettent en garde contre le fait de les interpréter comme tel, expliquant qu'il s'agit d'une erreur dangereuse qui a des conséquences considérables pour la recherche et les applications. Des critiques appellent même à changer le nom « IA ».
Sources : Anthropic, Apple, chercheurs de l'Arizona State University
Et vous ?






Vous avez lu gratuitement 656 articles depuis plus d'un an.
Soutenez le club developpez.com en souscrivant un abonnement pour que nous puissions continuer à vous proposer des publications.
Soutenez le club developpez.com en souscrivant un abonnement pour que nous puissions continuer à vous proposer des publications.