
« tout ce qui compte est de savoir si la réponse finale est correcte »
La capacité des modèles de langage à « raisonner » fait débat. Beaucoup considèrent les modèles axés sur le raisonnement comme un argument marketing. Apple a étudié le sujet et a rapporté n'avoir trouvé aucune preuve de raisonnement formel dans les modèles de langage. Une nouvelle étude indique que les « chaînes de pensée » de l'IA ne sont pas des signes d'un raisonnement humain. Les chercheurs mettent en garde contre le fait de les interpréter comme tel, expliquant qu'il s'agit d'une erreur dangereuse qui a des conséquences considérables pour la recherche et les applications. Des critiques appellent même à changer le nom « IA ».
L'étude en question a été réalisée par des chercheurs de l'Arizona State University. L'article remet en cause l'idée selon laquelle les « chaînes de pensée » (Chain of Thought - CoT) générées par les modèles d'IA reflètent un raisonnement semblable à celui des humains. Les chaînes de pensée sont une technique permettant aux modèles d'IA de résoudre des problèmes complexes en raisonnant étape par étape plutôt que de donner une réponse directe.
Selon les chercheurs, l'interprétation des chaînes de pensée comme preuve d'un raisonnement humain est à la fois trompeuse et potentiellement préjudiciable à la recherche dans le domaine de l'IA. En d'autres termes, les étapes intermédiaires ne constituent pas de véritables processus de pensée humains.
Les chaînes de pensée : une illusion de raisonnement humain
Les modèles dits axés sur le raisonnement, comme Deepseek-R1 ou la série o d'OpenAI, décomposent les tâches en une série d'étapes intermédiaires avant de produire une réponse finale. Les déclarations des entreprises d'IA suggèrent que ces chaînes de pensée visibles sont les signes d'un raisonnement semblable à celui des humains, en particulier dans les interfaces de discussion où les utilisateurs peuvent voir en direct le déroulement du processus.
Mais les chercheurs rejettent cette idée, affirmant que les étapes intermédiaires ne sont que des fragments de texte superficiels, et non des traces significatives d'un processus de pensée. Rien ne prouve que l'étude de ces étapes permette de mieux comprendre le fonctionnement réel des modèles ni qu'elle les rende plus compréhensibles ou contrôlables. L'article met en garde contre les conséquences réelles de ces idées fausses sur la recherche en IA.
Les chaînes de pensée sont des séquences de texte produites par les modèles d'IA pour expliquer leur processus de résolution de problèmes. Bien que ces explications puissent sembler logiques et structurées à première vue, elles ne reflètent pas nécessairement le véritable processus de raisonnement de l'IA.
Ces chaînes peuvent être générées de manière post-hoc, c'est-à-dire après que le modèle a déjà déterminé sa réponse, sans que ces étapes intermédiaires aient réellement guidé sa décision. Il s'agit donc d'une illusion de raisonnement humain. Une étude d'Apple a révélé que les chatbots basés sur les grands modèles de langage sont défectueux, car ils ne peuvent pas raisonner. Selon le rapport, ils manquent de compétences en matière de raisonnement.
Recherche trompeuse et confiance mal placée
Les chercheurs de l'Arizona State University mettent en garde contre les risques liés à ces idées fausses sur la recherche en IA. Les conséquences pourraient être dangereuses. Par exemple, certains scientifiques ont tenté de rendre ces « chaînes de pensée » plus interprétables ou ont utilisé des caractéristiques telles que leur longueur et leur clarté pour mesurer la complexité d'un problème, malgré l'absence de preuves à l'appui de ces connexions.
Pour illustrer leur propos, les chercheurs ont cité des expériences dans lesquelles des modèles ont été formés avec des étapes intermédiaires délibérément absurdes ou même incorrectes. Dans certains cas, ces modèles ont surpassé ceux formés avec des chaînes de raisonnement logiquement cohérentes. D'autres études n'ont trouvé pratiquement aucune relation entre la précision des étapes intermédiaires et la précision de la réponse finale du modèle.
Par exemple, selon les auteurs, le modèle DeepSeek R1-Zéro, qui contenait des formes mixtes anglais-chinois dans les jetons intermédiaires, a obtenu de meilleurs résultats que la variante R1 publiée ultérieurement, dont les étapes intermédiaires étaient spécifiquement optimisées pour la lisibilité humaine. D'après les chercheurs, l'apprentissage par renforcement peut faire en sorte que les modèles génèrent n'importe quel jeton intermédiaire.
Le seul facteur décisif est de savoir si la réponse finale est correcte. Dans un autre exemple, DeepSeek R1-Zero, qui mélangeait l'anglais et le chinois dans ses jetons intermédiaires, a été plus performant qu'une version ultérieure optimisée pour la lisibilité humaine. L'apprentissage par renforcement peut entraîner les modèles à produire n'importe quel type de texte intermédiaire ; la seule chose qui compte est de savoir si la réponse finale est correcte.
Prudence face à l'anthropomorphisme de l'IA
Selon le rapport, les touches humaines, comme l'insertion de mots tels que « aha » ou « hmm », sont souvent prises pour des signes de véritable perspicacité, alors qu'il ne s'agit en fait que de continuations statistiquement probables. Subbarao Kambhampati, qui a dirigé l'équipe de recherche, a déclaré qu'il est facile de trouver des exemples où les étapes intermédiaires du modèle comportent des erreurs évidentes, mais où le résultat final reste correct.
Selon Subbarao Kambhampati, essayer d'interpréter ces fragments de texte mélangés revient à lire le sens d'un test de Rorschach : comme le contenu est incohérent et souvent dénué de sens, les observateurs finissent par projeter leurs propres interprétations sur des modèles aléatoires. Dans la pratique, l'utilité supposée de ces jetons intermédiaires n'a pas grand-chose à voir avec l'exactitude de la réponse finale produite par un modèle de langage.
Des études montrent que même lorsque le modèle génère des étapes intermédiaires pleines de charabia ou d'erreurs, il peut encore parvenir à la bonne réponse, non pas parce que ces fragments reflètent un véritable raisonnement, mais parce qu'ils agissent comme des compléments utiles de la requête.
D'autres recherches ont montré que les modèles passent souvent d'une stratégie de résolution de problème à l'autre de manière inefficace, en particulier lorsqu'ils s'attaquent à des tâches plus difficiles. Cette tendance suggère que l'existence d'étapes intermédiaires permet davantage de façonner le résultat du modèle que d'améliorer la qualité de son raisonnement. L'équipe appelle à se concentrer sur la vérification, et non sur l'anthropomorphisme.
Conclusion
L'étude soutient que les modèles actuels axés sur le raisonnement ne « pensent » pas vraiment. Ils s'améliorent plutôt dans l'utilisation des signaux de retour et de vérification au cours de la formation. Ce qui ressemble à un processus de raisonnement étape par étape n'est en fait qu'un effet secondaire de l'optimisation. L'important n'est pas de savoir si les jetons semblent logiques, mais s'ils aident le modèle à obtenir la bonne réponse.
Plutôt que de considérer les jetons intermédiaires comme des aperçus de l'esprit d'une IA, les chercheurs affirment qu'ils devraient être considérés comme un outil de prompt engineering. L'accent doit être mis sur l'amélioration des performances, et non sur l'aspect humain du processus. Une suggestion consiste à utiliser un deuxième modèle pour générer des étapes intermédiaires qui augmentent la précision, même si ces étapes n'ont pas de sens sémantique.
Source : rapport de l'étude
Et vous ?


Voir aussi



Vous avez lu gratuitement 12 articles depuis plus d'un an.
Soutenez le club developpez.com en souscrivant un abonnement pour que nous puissions continuer à vous proposer des publications.
Soutenez le club developpez.com en souscrivant un abonnement pour que nous puissions continuer à vous proposer des publications.