Les agents peuvent surmonter les barrières syntaxiques élevées qui pourraient conduire à des erreurs faussement négatives dans des tâches complexes s'ils sont ancrés dans le langage naturel. Cependant, en raison de leurs espaces d'état vastes et souvent non limités, les agents RL de langage naturel présentent un défi important pour l'apprentissage de politiques optimales.
Diverses approches décisionnelles ont été proposées pour aider les agents de langage naturel à faire des choix dans un environnement textuel sans bénéficier d'une politique apprise. Cependant, le modèle devient plus enclin à halluciner sur des séquences plus longues, ce qui réduit la précision de ces méthodes à mesure que le nombre de sous-tâches augmente.
Les agents de langage naturel peuvent résoudre des tâches de manière plus intuitive grâce aux qualités avancées des LLM à grande échelle qui s'apparentent à celles de l'homme. Les méthodes "human-in-the-loop" (HITL) ont été largement utilisées pour améliorer les performances en réacheminant la trace de raisonnement de l'agent après les erreurs. Bien que cette méthode améliore les performances avec peu d'implication humaine, elle n'est pas autonome car elle nécessite des formateurs pour surveiller la trajectoire à chaque intervalle de temps.
Les chercheurs de la Northeastern University et du Massachusetts Institute of Technology pensent que si on leur donnait la possibilité de fermer la boucle essai-erreur de manière autonome, les LLM feraient bon usage de l'auto-optimisation basée sur le langage naturel.
Pour vérifier son hypothèse, l'équipe a mis en œuvre un LLM autoréflexif et une heuristique simple pour identifier les hallucinations et l'exécution inefficace d'actions au sein d'un agent basé sur le LLM, en utilisant une approche appelée Reflexion. Ils mettent ensuite l'agent à l'épreuve sur deux benchmarks différents d'apprentissage par l'erreur - AlfWorld, basé sur un texte, et HotPotQA, qui répond à des questions. Le résultat est une efficacité accrue dans la prise de décision et dans d'autres tâches basées sur la connaissance.
Cet article démontre qu'il est possible d'améliorer les performances de GPT-4 de 30 % en lui demandant de réfléchir à la question suivante : "Pourquoi vous êtes-vous trompé ?" et de générer un nouveau message en tenant compte de cette raison jusqu'à ce qu'il soit correct.
La technique de résolution de problèmes ReAct est améliorée par la capacité Reflexion de l'agent à réfléchir sur ses performances, ce qui a permis d'obtenir un taux de découverte de 97 % sur le benchmark AlfWorld en seulement 12 essais autonomes. Il s'agit d'une amélioration significative par rapport à la précision de 75 % obtenue par l'agent ReAct de base. Cent questions ont été extraites de HotPotQA et un agent ReAct basé sur Reflexion a été testé. Comparé à un agent ReAct de base, l'agent l'a surpassé de 17 % grâce à l'affinement itératif de sa recherche et de son extraction de contenu sur la base des conseils de sa mémoire. Il est important de noter que Reflexion n'est pas conçu pour atteindre des scores de précision proches de la perfection ; il vise plutôt à montrer comment l'apprentissage par essais et erreurs peut faciliter la découverte dans des tâches et des environnements que l'on pensait auparavant impossibles à résoudre.
L'équipe souligne que leur approche Reflexion peut être appliquée à des problèmes plus complexes, par exemple lorsque l'agent doit apprendre à générer de nouvelles idées, à explorer des espaces d'état inédits et à élaborer des plans d'action plus précis sur la base de l'historique de son expérience.
Reflexion : un agent autonome doté d'une mémoire dynamique et d'une capacité d'autoréflexion
Les progrès récents dans la prise de décision des agents à grand modèle de langage (LLM) ont démontré une performance impressionnante à travers divers points de référence. Cependant, ces approches de pointe nécessitent généralement un réglage fin du modèle interne, un réglage fin du modèle externe ou une optimisation de la politique sur un espace d'état défini. La mise en œuvre de ces méthodes peut s'avérer difficile en raison de la rareté des données d'entraînement de haute qualité ou de l'absence d'un espace d'état bien défini. En outre, ces agents ne possèdent pas certaines qualités inhérentes aux processus décisionnels humains, notamment la capacité d'apprendre de ses erreurs. L'autoréflexion permet aux humains de résoudre efficacement de nouveaux problèmes par le biais d'un processus d'essais et d'erreurs. S'appuyant sur des recherches récentes, nous proposons Reflexion, une approche qui dote un agent d'une mémoire dynamique et de capacités d'autoréflexion afin d'améliorer sa trace de raisonnement existante et ses capacités de choix d'actions spécifiques à une tâche. Pour parvenir à une automatisation complète, nous introduisons une heuristique simple mais efficace qui permet à l'agent de repérer les cas d'hallucination, d'éviter les répétitions dans les séquences d'action et, dans certains environnements, de construire une carte de mémoire interne de l'environnement donné. Pour évaluer notre approche, nous évaluons la capacité de l'agent à accomplir des tâches de prise de décision dans des environnements AlfWorld et des tâches de questions-réponses à forte intensité de connaissances, basées sur la recherche, dans des environnements HotPotQA. Nous observons des taux de réussite de 97% et 51%, respectivement, et fournissons une discussion sur la propriété émergente de l'autoréflexion.
Les progrès récents dans la prise de décision des agents à grand modèle de langage (LLM) ont démontré une performance impressionnante à travers divers points de référence. Cependant, ces approches de pointe nécessitent généralement un réglage fin du modèle interne, un réglage fin du modèle externe ou une optimisation de la politique sur un espace d'état défini. La mise en œuvre de ces méthodes peut s'avérer difficile en raison de la rareté des données d'entraînement de haute qualité ou de l'absence d'un espace d'état bien défini. En outre, ces agents ne possèdent pas certaines qualités inhérentes aux processus décisionnels humains, notamment la capacité d'apprendre de ses erreurs. L'autoréflexion permet aux humains de résoudre efficacement de nouveaux problèmes par le biais d'un processus d'essais et d'erreurs. S'appuyant sur des recherches récentes, nous proposons Reflexion, une approche qui dote un agent d'une mémoire dynamique et de capacités d'autoréflexion afin d'améliorer sa trace de raisonnement existante et ses capacités de choix d'actions spécifiques à une tâche. Pour parvenir à une automatisation complète, nous introduisons une heuristique simple mais efficace qui permet à l'agent de repérer les cas d'hallucination, d'éviter les répétitions dans les séquences d'action et, dans certains environnements, de construire une carte de mémoire interne de l'environnement donné. Pour évaluer notre approche, nous évaluons la capacité de l'agent à accomplir des tâches de prise de décision dans des environnements AlfWorld et des tâches de questions-réponses à forte intensité de connaissances, basées sur la recherche, dans des environnements HotPotQA. Nous observons des taux de réussite de 97% et 51%, respectivement, et fournissons une discussion sur la propriété émergente de l'autoréflexion.
Et vous ?
Quel est votre avis sur le sujet ?
Pensez-vous qu'une intelligence artificielle générale pourrait voir le jour dans un avenir plus ou moins proche ?
Voir aussi
Microsoft prétend que GPT-4 montre des « étincelles » d'intelligence artificielle générale, « nous pensons que l'intelligence de GPT-4 signale un véritable changement de paradigme »
Des chercheurs en IA affirment que le modèle de langage GPT-4 d'OpenAI pourrait passer l'examen du barreau, et relance le débat sur le remplacement des avocats et des juges par des systèmes d'IA
GPT-4 a réussi à tromper un humain, l'incitant à résoudre un CAPTCHA après avoir prétendu être aveugle. OpenAI a présenté cette version de ChatGPT comme étant « meilleure et plus précise »