IdentifiantMot de passe
Loading...
Mot de passe oublié ?Je m'inscris ! (gratuit)

Vous êtes nouveau sur Developpez.com ? Créez votre compte ou connectez-vous afin de pouvoir participer !

Vous devez avoir un compte Developpez.com et être connecté pour pouvoir participer aux discussions.

Vous n'avez pas encore de compte Developpez.com ? Créez-en un en quelques instants, c'est entièrement gratuit !

Si vous disposez déjà d'un compte et qu'il est bien activé, connectez-vous à l'aide du formulaire ci-dessous.

Identifiez-vous
Identifiant
Mot de passe
Mot de passe oublié ?
Créer un compte

L'inscription est gratuite et ne vous prendra que quelques instants !

Je m'inscris !

Le raisonnement artificiel basé sur la chaîne de pensée est-il un mirage ? par Sean Goedecke

Le , par Sean Goedecke

46PARTAGES

3  0 
Le raisonnement artificiel basé sur la chaîne de pensée est-il un mirage ? par Sean Goedecke

La lecture d'articles et de travaux de recherche sur le raisonnement basé sur la chaîne de pensée me frustre.

Il y a beaucoup de questions intéressantes à se poser à ce sujet : dans quelle mesure reflète-t-il fidèlement le processus réel, pourquoi le fait de l'entraîner « à partir de zéro » produit-il souvent des chaînes qui passent fluidement d'une langue à l'autre, etc. Cependant, les gens continuent de poser la question la moins intéressante qui soit : le raisonnement par chaîne de pensée est-il « vraiment » du raisonnement ?

Apple a abordé cette question dans son article Illusion of Thinking, dont j'ai déjà parlé. Aujourd'hui, un article de l'université d'État de l'Arizona intitulé « Is Chain-of-Thought Reasoning of LLMs a Mirage? » (Le raisonnement par chaîne de pensée des LLM est-il un mirage ?) suscite un certain intérêt. Comme vous le verrez, je ne pense pas que cet article soit très bon.

Que soutient l'article de l'université d'État de l'Arizona ?

Voici l'argument principal :

Le raisonnement CoT fonctionne efficacement lorsqu'il est appliqué à des données en distribution ou proches de la distribution, mais il devient fragile et sujet à l'échec même en cas de changements de distribution modérés. Dans certains cas, les LLM génèrent des étapes de raisonnement fluides mais logiquement incohérentes. Les résultats suggèrent que ce qui semble être un raisonnement structuré peut être un mirage, issu de modèles mémorisés ou interpolés dans les données d'entraînement plutôt que d'une inférence logique.
La stratégie de l'article consiste à entraîner un petit modèle de transformateur (~600k paramètres) sur un corpus de transformations de données non linguistiques. Qu'est-ce que cela signifie ? D'après ce que je comprends, lorsque le modèle reçoit une requête telle que « A B C D [M1] », il doit répondre « B C D E », si l'opération « M1 » dans les données d'entraînement signifie « avancer chaque lettre d'une position »2. Les données d'entraînement contenaient plusieurs types d'opérations, composées de manière arbitraire (par exemple, « A B C D [M1] [M1] » devrait produire « C D E F »). Enfin, les données d'entraînement comprenaient des chaînes de pensée telles que :

Code : Sélectionner tout
1
2
3
4
5
A B C D [M1] [M1]
<think>
B C D E [M1]
</think>
C D E F


Dans l'ensemble, l'idée est d'enseigner au modèle une manière très simple d'exprimer des chaînes de pensées pour résoudre des problèmes alphabétiques simples, ce qui a pour effet positif de faciliter la détermination à grande échelle si et quand le modèle a commis une erreur dans son raisonnement. Vous pouvez générer directement dix mille complétions, puis vérifier algorithmiquement le travail du modèle, ce qui est ce qu'a fait l'article.

L'article tire toutes sortes de conclusions de ces traces de raisonnement :

  • Lorsqu'un chemin de raisonnement demandé (comme « [M1] [K1] ») n'apparaît pas dans les données d'entraînement (même si les opérations individuelles « M1 » et « K1 » y apparaissent), leur modèle a eu du mal à effectuer les opérations demandées au lieu de produire un chemin similaire à celui qui figurait dans les données d'entraînement.
  • Lorsque le chemin de raisonnement demandé est même légèrement plus long que ceux des données d'entraînement, les performances diminuent sensiblement.
  • Toute modification (même mineure) du format, comme l'ajout d'un jeton « bruit » sans signification, entraîne une augmentation considérable du nombre d'erreurs commises par le modèle.
  • Le modèle peut être rapidement ajusté pour faire face à l'un de ces problèmes, mais cela ne résout que le problème spécifique pour lequel l'ajustement a été effectué.

À partir de tout cela, l'article conclut que le raisonnement en chaîne de pensées du modèle ne fonctionne pas hors distribution, mais se contente de copier des modèles de raisonnement spécifiques qui se sont produits dans les données d'entraînement.

Qu'est-ce que j'en pense ?

Je n'aime pas cela. Je ne suis pas convaincu que l'on puisse tirer des conclusions générales sur les modèles de raisonnement à partir de l'exemple simplifié présenté dans cet article, et ce pour plusieurs raisons.

Raisonnement et langage

La première est que le raisonnement nécessite probablement l'utilisation du langage. Même si vous ne pensez pas que les modèles d'IA puissent « vraiment » raisonner (nous y reviendrons plus tard), même le raisonnement simulé doit être un raisonnement en langage humain. Les traces des modèles de raisonnement regorgent d'expressions telles que « attendez, et si nous essayions », « je ne suis pas sûr, mais voyons si » et « super, nous savons donc avec certitude que X, considérons maintenant Y ». En d'autres termes, le raisonnement est une tâche sophistiquée qui nécessite un outil sophistiqué comme le langage humain.

Pourquoi ? Parce que les tâches de raisonnement nécessitent de choisir entre plusieurs options différentes. « A B C D [M1] -> B C D E » n'est pas du raisonnement, c'est du calcul, car il n'y a pas de mécanisme permettant de penser « oh, je me suis trompé, essayons autre chose ». C'est pourquoi le mot le plus important dans les modèles de raisonnement de l'IA est « Attends ». En fait, vous pouvez contrôler la durée de réflexion d'un modèle de raisonnement en ajoutant arbitrairement « Attends » à la chaîne de pensée. Les modèles de raisonnement réels changent constamment de direction, mais l'exemple simplifié de cet article en est structurellement incapable.

edit : après avoir publié cet article, j'ai été dirigé vers un article, qui explique de manière convaincante que les modèles de raisonnement s'appuient sur des « pivots » du langage humain tels que « attends », « en fait », « attends un peu », etc.

Taille du modèle

Le deuxième problème est que le modèle est tout simplement trop petit. Les modèles de raisonnement sont une innovation assez récente, mais l'idée est assez évidente. Pourquoi ? Je suis presque certain que c'est parce que (avant septembre 2024) les modèles n'étaient tout simplement pas assez intelligents pour raisonner. Il était impossible de construire un modèle de raisonnement sur la base de GPT-3.5, car celui-ci ne dispose tout simplement pas d'une puissance de calcul suffisante pour effectuer les opérations nécessaires, comme garder plusieurs solutions possibles « en mémoire » en même temps.

En d'autres termes, un modèle à 600 000 paramètres est suffisamment intelligent pour apprendre à appliquer des transformations en séquence, mais pas nécessairement assez intelligent pour décomposer ces transformations en leurs composants individuels. Je comprends que la recherche doive être effectuée sur de petits modèles, mais nous savons que le raisonnement est une capacité émergente ! Même si l'on admet que ce qu'ils mesurent est le raisonnement, je ne suis absolument pas convaincu que leurs résultats puissent être généralisés à un modèle de 1 milliard, 10 milliards ou 100 milliards.

Comment les humains raisonnent-ils ?

Même si mes deux objections précédentes étaient invalides, cet article ne justifierait toujours pas ses conclusions grandiloquentes sur un « mirage » du raisonnement, car il ne compare pas la façon dont les humains raisonnent réellement. Voici quelques citations tirées de l'article :

Les LLM construisent des chaînes logiques superficielles basées sur des associations de tokens apprises, échouant souvent dans des tâches qui s'écartent des heuristiques de bon sens ou des modèles familiers. Les modèles intègrent souvent... des détails non pertinents dans leur raisonnement, révélant un manque de sensibilité aux informations saillantes. Les modèles peuvent trop réfléchir à des problèmes faciles et abandonner les plus difficiles. Ensemble, ces résultats suggèrent que les LLM ne sont pas des raisonneurs fondés sur des principes, mais plutôt des simulateurs sophistiqués de textes ressemblant à du raisonnement.
J'ai envie de m'arracher les cheveux quand je lis des citations comme celles-ci, car toutes ces affirmations sont vraies pour les raisonneurs humains. Les humains s'appuient sur des heuristiques et des modèles, incluent des détails non pertinents, réfléchissent trop à des problèmes faciles et abandonnent les problèmes difficiles tout le temps ! La grande affirmation de l'article - selon laquelle les modèles de raisonnement ont du mal lorsqu'ils sortent de leur domaine - est également vraie pour les raisonneurs humains les plus forts.

Le « raisonneur fondé sur des principes » auquel on fait référence ici n'existe tout simplement pas. C'est un idéal platonicien. Si l'on comparait la manière désordonnée dont même les humains très intelligents raisonnent dans la pratique à cet idéal, ils échoueraient également. C'est presque un cliché de dire que les experts humains peuvent raisonner magnifiquement dans leur domaine, mais s'effondrent complètement lorsqu'ils raisonnent en dehors de leur domaine3. Pourquoi serions-nous surpris que les modèles de raisonnement raisonnent comme les humains, alors qu'ils sont entraînés sur de grandes quantités de textes de raisonnement humains ou similaires ?

Conclusion

La question de savoir si le raisonnement de l'IA est un « vrai » raisonnement ou simplement un mirage peut être intéressante, mais il s'agit avant tout d'une question philosophique. Elle dépend d'une définition claire de ce qu'est exactement le « vrai » raisonnement. Je me suis éloigné de la philosophie depuis un certain temps, mais j'y ai passé suffisamment de temps pour savoir qu'il n'existe pas de définition consensuelle du raisonnement idéal, et que toute définition potentielle se heurte très rapidement à de sérieux problèmes. Ce n'est pas quelque chose que l'on peut écarter d'un revers de main dans l'introduction d'un article sur l'apprentissage automatique.

Je pense que l'idée de former un modèle simplifié à faire quelque chose qui s'apparente au raisonnement est une stratégie vraiment intéressante. Si l'article « Is Chain-of-Thought Reasoning of LLMs a Mirage? » (Le raisonnement en chaîne de pensées des LLM est-il un mirage ?) avait porté uniquement sur cela, je n'aurais aucun problème avec. Mais ces articles continuent d'ajouter des affirmations philosophiques générales sur la question de savoir si les modèles peuvent « vraiment raisonner », qui ne sont absolument pas étayées par le contenu de la recherche.

Je suggère l'heuristique suivante lorsque vous lisez un article sur le raisonnement des modèles :

  1. S'il affirme que le raisonnement de l'IA est en quelque sorte « faux », vérifiez s'il existe une section où il évalue (au minimum) directement la qualité des capacités de raisonnement humain, ou idéalement, où il fournit une définition philosophique rigoureuse de ce qu'est le « vrai » raisonnement.
  2. S'il mentionne des tâches de raisonnement auxquelles les modèles d'IA échouent, vérifiez la tâche elle-même pour voir s'il s'agit d'une tâche qui nécessite réellement du raisonnement (c'est-à-dire la prise en compte de plusieurs approches) ou si elle nécessite simplement des calculs (en suivant un algorithme défini).

Les bons articles sur le raisonnement des modèles4 remplissent ces deux conditions. Même s'ils sont sceptiques quant à la puissance de la chaîne de pensée, ils utilisent des tâches qui offrent de nombreuses voies vers la réussite (comme les mathématiques ou les puzzles linguistiques) et ne tirent pas de conclusions générales sur le « vrai » raisonnement.

Source : Is chain-of-thought AI reasoning a mirage?

Et vous ?

Pensez-vous que cette affirmation est crédible ou pertinente ?
Quel est votre avis sur le sujet ?

Voir aussi :

Pourquoi les mauvais contenus générés par l'IA ou "AI slop" sont-ils si désagréables à lire ? par Sean Goedecke

Des chercheurs découvrent qu'il arrive aux modèles IA d'OpenAI et Anthropic de générer des réponses contredisant leur propre raisonnement interne. Une situation qui soulève des questions sur ces mécanismes

Des chercheurs mettent en garde contre l'interprétation des « chaînes de pensée » de l'IA comme des signes d'un raisonnement humain : « tout ce qui compte est de savoir si la réponse finale est correcte »
Vous avez lu gratuitement 16 876 articles depuis plus d'un an.
Soutenez le club developpez.com en souscrivant un abonnement pour que nous puissions continuer à vous proposer des publications.

Une erreur dans cette actualité ? Signalez-nous-la !