Les récentes avancées dans le domaine des modèles de langage (LLM) ont montré un grand potentiel dans la résolution de tâches de raisonnement complexes. Toutefois, l'approche traditionnelle consistant à utiliser une méthodologie de chaîne de pensée (CoT) n'est pas toujours optimale pour ces tâches. Une nouvelle étude montre que de nombreux mots-clés dans cet espace linguistique servent davantage à la cohérence textuelle qu'à des composantes essentielles du raisonnement. En outre, certains tokens critiques posent des défis importants aux LLM pendant les phases de planification.
Pour remédier à ces limitations et libérer tout le potentiel des capacités de raisonnement des LLM, des chercheurs introduisent un nouveau paradigme appelé Coconut (Chain of Continuous Thought). Contrairement aux méthodes CoT traditionnelles qui décodent les représentations en mots clés, Coconut les renvoie au LLM en tant qu'entrée subséquente, en les intégrant directement dans un espace latent continu.
Comparaison entre la chaîne de pensée continue (Coconut) et la chaîne de pensée (CoT)
Les résultats expérimentaux démontrent que Coconut améliore efficacement les performances du LLM dans diverses tâches de raisonnement. L'un des principaux avantages de Coconut est sa capacité à encoder plusieurs étapes alternatives de raisonnement dans la représentation continue de la pensée. Cette caractéristique permet au modèle d'adopter une stratégie de recherche en largeur (BFS) lors de la résolution de problèmes, ce qui permet une plus grande flexibilité et adaptabilité par rapport à l'engagement prématuré dans un chemin déterministe unique, comme on le voit dans les approches CoT.
En particulier, Coconut surpasse CoT dans les tâches de raisonnement logique qui nécessitent un retour en arrière important pendant les étapes de planification, tout en réduisant le nombre de jetons de réflexion nécessaires pendant l'inférence. Dans l'ensemble, cette étude met en lumière les promesses des paradigmes de raisonnement latent tels que Coconut et fournit des indications précieuses pour les futurs efforts de recherche visant à améliorer les capacités LLM dans des scénarios de raisonnement complexes.
Analyse comparative de différentes méthodes de raisonnement
Présentation du paradigme "Chaîne de pensée continue"
Les grands modèles de langage (LLM) sont limités au raisonnement dans l'"espace linguistique", où ils expriment généralement le processus de raisonnement avec une chaîne de pensée (CoT) pour résoudre un problème de raisonnement complexe. Cependant, les chercheurs affirment que l'espace linguistique n'est pas toujours optimal pour le raisonnement. Par exemple, la plupart des mots-clés servent principalement à la cohérence textuelle et ne sont pas essentiels au raisonnement, alors que certains mots-clés critiques nécessitent une planification complexe et posent d'énormes défis aux LLM.
Le nouveau paradigme Coconut (Chaîne de Pensée Continue) servirait à explorer le potentiel du raisonnement LLM dans un espace latent non restreint au lieu d'utiliser le langage naturel. Le paradigme utilise le dernier état caché du LLM comme représentation de l'état de raisonnement (appelé "pensée continue"). Plutôt que de décoder cette représentation en un mot, Coconut la renvoit au LLM en tant qu'entrée subséquente s'intégrant directement dans l'espace continu.
Procédure de formation de la chaîne de pensée continue (Cocoonut)
Les expériences montrent que Coconut peut augmenter efficacement le LLM sur plusieurs tâches de raisonnement. Ce nouveau paradigme de raisonnement latent conduit à des modèles de raisonnement avancés émergents : la pensée continue peut encoder de multiples étapes de raisonnement alternatives, permettant au modèle d'effectuer une recherche en largeur (BFS) pour résoudre le problème, plutôt que de s'engager prématurément dans un chemin déterministe unique comme CoT.
Selon les chercheurs, Coconut surpasse CoT dans certaines tâches de raisonnement logique qui nécessitent un retour en arrière important pendant la planification, avec moins de jetons de réflexion pendant l'inférence. Ces résultats démontrent le potentiel du raisonnement latent et offrent des perspectives intéressantes pour les recherches futures.
Les chercheurs concluent l'étude :
Nous avons présenté Coconut, un nouveau paradigme pour le raisonnement dans un espace latent continu. Grâce à des expériences approfondies, nous avons démontré que Coconut améliore de manière significative les capacités de raisonnement LLM. Notamment, notre analyse détaillée a mis en évidence comment un espace latent non contraint permet au modèle de développer un modèle de raisonnement efficace similaire à BFS. Des travaux futurs sont nécessaires pour affiner et mettre à l'échelle les méthodes de raisonnement latent. Une direction prometteuse est le pré-entraînement des LLM avec des pensées continues, ce qui pourrait permettre aux modèles de se généraliser plus efficacement à travers un plus large éventail de scénarios de raisonnement. Nous prévoyons que nos résultats inspireront d'autres recherches sur les méthodes de raisonnement latent, contribuant finalement au développement de systèmes de raisonnement machine plus avancés.
Source : "Training Large Language Models to Reason in a Continuous Latent Space"
Et vous ?
Pensez-vous que ce nouveau paradigme est crédible ou pertinent ?
Quel est votre avis sur le sujet ?
Voir aussi :
La "distillation pas-à-pas", un nouveau paradigme d'apprentissage pour surpasser les performances des grands LLM, avec moins de données d'entraînement et des modèles d'IA de plus petite taille
Les grands modèles de langage (LLM) ne peuvent pas s'autocorriger dans les tâches de raisonnement, selon une étude de DeepMind. L'autocorrection pourrait même nuire aux performances de ces modèles
Apprendre à raisonner avec le nouveau LLM OpenAI o1 formé avec l'apprentissage par renforcement pour effectuer des raisonnements complexes, car o1 réfléchit avant de répondre