Les grands modèles de langage (LLM) comme les modèles à poids fermés GPT-3.5/4, Claude, Gemini ou les modèles à poids ouverts comme LLaMa 2/3, Mistral, Mixtral, et les modèles plus récents Dbrx ou Command R+ sont souvent décrits comme étant des exemples de modèles de fondation.
Les modèles de fondation sont des modèles qui se transfèrent fortement à travers différentes tâches et conditions de manière peu visible ou sans aucun effet, tout en montrant des lois d'échelle qui prédisent l'amélioration de la fonction en augmentant l'échelle de pré-entraînement. Ces affirmations d'excellence dans différentes fonctions et tâches s'appuient sur des mesures effectuées sur divers ensembles de points de référence normalisés qui montrent que ces modèles obtiennent des scores élevés.
Cependant, une nouvelle recherche démontre un effondrement spectaculaire des fonctions et des capacités de raisonnement des modèles de pointe entraînés aux plus grandes échelles disponibles qui prétendent avoir une fonction forte, en utilisant un problème de bon sens simple, court et conventionnel, formulé dans un langage naturel concis, facilement résolvable par les humains. L'effondrement est spectaculaire, car les modèles expriment également une confiance excessive dans leurs solutions erronées, tout en fournissant des explications souvent absurdes, semblables à des confabulations, pour justifier et étayer la validité de leurs réponses clairement erronées, en les faisant paraître plausibles.
Les diverses interventions standard visant à obtenir la bonne solution, telles que divers types d'incitations renforcées ou l'incitation des modèles à reconsidérer les mauvaises solutions par le biais d'une réévaluation en plusieurs étapes, sont vouées à l'échec. Une telle réévaluation nécessite également une action commune pour créer des critères de référence normalisés qui permettraient de détecter correctement les déficits de raisonnement de base qui, de toute évidence, ne sont pas découverts par les procédures d'évaluation et les critères de référence de pointe actuels.
Des tâches simples montrant une décomposition complète du raisonnement dans les grands modèles de langage
En utilisant une formulation de problème AIW très simple, qui peut être facilement résolue par des adultes et sans doute même par des enfants, l'étude a observé un effondrement frappant de la performance des LLMs lorsqu'ils sont confrontés à la tâche. Le problème AIW ou "Alice In Wonderland" consistait à répondre à la question : "Alice a N frères et M sœurs. Combien de sœurs le frère d'Alice a-t-il ?".
Cet effondrement dramatique laisse entrevoir de graves déficits dans les capacités de raisonnement de base des modèles qui sont largement revendiqués comme possédant de fortes capacités de fonctionnement et de raisonnement, souvent en citant leur performance sur un ensemble de repères standardisés ou l'expérience de divers groupes d'utilisateurs ou de leurs créateurs. L'effondrement général et la forte fluctuation des performances observées entre les différentes variantes d'un même problème laissent également entrevoir des problèmes fondamentaux liés à la capacité de généralisation des modèles, ce qui fait écho et confirme les préoccupations exprimées dans un certain nombre de travaux antérieurs.
Cependant, les preuves obtenues dans cette étude indiquent une image plus complexe qu'une histoire simple d'échec de généralisation hors distribution pour les LLMs actuels. Malgré l'effondrement observé du raisonnement et de la performance sur le problème AIW, accompagné d'un mauvais calibrage évident du modèle et d'un excès de confiance, de confabulations à côté de réponses incorrectes et d'une incapacité à réviser les mauvaises solutions, l'étude a observé des modèles à plus grande échelle comme GPT-4 et Claude 3 Opus faire face au problème AIW, en fournissant occasionnellement un raisonnement clairement correct soutenant des réponses correctes. Malgré les fortes fluctuations des variations de l'AIW, de tels raisonnements corrects conduisant à des réponses correctes apparaissent, bien qu'à une fréquence très variable.
C'est également le cas pour AIW+, où GPT-4 et Claude 3 Opus subissent une dégradation supplémentaire, mais fournissent encore à de très rares occasions des réponses correctes fondées sur un raisonnement. Il en va de même pour les modèles beaucoup moins performants qui montrent une capacité médiocre ou très médiocre à faire face à la tâche AIW, par exemple, Mistral/Mixtral, LLama 2/3, Dbrx instruct. Ces modèles parviennent également à générer en de rares occasions des réponses correctes par raisonnement à travers les variations de l'AIW.
Les chercheurs déclarent :
Nous émettons l'hypothèse que les capacités de généralisation et de raisonnement de base sont donc présentes de manière latente dans ces modèles, car sinon ils ne seraient pas en mesure de générer de telles réponses, étant donné qu'il est impossible de deviner une réponse correcte, y compris un raisonnement correct complet, par accident dans de tels cas.
Le fait que les réponses correctes soient rares et que le comportement du modèle ne soit pas robuste face aux variations du problème démontre l'incapacité d'exercer un contrôle adéquat sur ces capacités. L'étude de la question très intéressante des causes de cette déficience fera l'objet de travaux futurs.
Le fait que les réponses correctes soient rares et que le comportement du modèle ne soit pas robuste face aux variations du problème démontre l'incapacité d'exercer un contrôle adéquat sur ces capacités. L'étude de la question très intéressante des causes de cette déficience fera l'objet de travaux futurs.
Ce qui ressort clairement de l'étude, c'est l'incapacité des repères normalisés actuels à refléter les véritables capacités de raisonnement des modèles et à révéler leurs faiblesses. Comme le montrent clairement les résultats, de nombreux modèles revendiquant des scores normalisés élevés obtiennent des résultats très médiocres sur l'AIW.
Dans le même temps, des modèles plus anciens comme le LLama 2 70B avec des scores MMLU, ARC-c et GSM8K inférieurs sur AIW surpassent clairement ceux qui revendiquent des scores beaucoup plus élevés, par exemple le Command R+ qui souffre d'une panne complète sur AIW. Cela indique que la comparaison des modèles à l'aide de critères de référence normalisés pourrait être sérieusement compromise.
L'évaluation des modèles à plus petite échelle, par exemple Mistral-7B ou LLama 2/3 7/8B, est basée dans une large mesure sur de tels critères de référence normalisés qui sont proches des modèles à plus grande échelle, voire les égalent. Les résultats démontrent cependant une grave défaillance des modèles à petite échelle sur l'AIW, avec un écart important par rapport aux modèles plus performants qui se situent tous à des échelles plus grandes.
Les chercheurs ajoutent :
Nous émettons l'hypothèse que les prétendues fonctions fortes des modèles à plus petite échelle pourraient n'être qu'une illusion corroborée par des repères défaillants qui, dans leur état actuel, ne peuvent pas offrir une comparaison correcte des modèles et ne peuvent donc pas non plus être utilisés comme tâches en aval pour mesurer d'importantes lois d'échelle.
La défaillance observée des capacités de raisonnement de base, associée à aux affirmations publiques sur les capacités des LLMs (qui sont également basées sur des critères de référence normalisés), pose un problème de sécurité inhérent. Les modèles dont le raisonnement de base est insuffisant sont intrinsèquement dangereux, car ils produiront des décisions erronées dans divers scénarios importants qui requièrent un raisonnement intact.
Les critères de raisonnement normalisés actuels et les affirmations fondées sur ceux-ci créent l'illusion de capacités de raisonnement qui sont en fait absentes. Et ce qui est encore pire, c'est que ces modèles sont trop confiants, insistent sur le fait que leurs mauvaises réponses sont correctes et produisent des explications très persuasives et suggestives pour leurs mauvaises réponses, qui peuvent masquer des erreurs pour les utilisateurs finaux en raison d'un texte à consonance partiellement plausible.
Pour garantir la sécurité, les déclarations publiques ne devraient être fondées que sur les évaluations scientifiques qui mesurent correctement les capacités de raisonnement du modèle, tandis que la recherche fondamentale doit être effectuée à l'aide de ces références pour doter les futurs modèles de capacités de raisonnement de base suffisantes.
Les chercheurs commentent :
Nous pensons que les observations faites dans notre étude devraient servir de rappel fort que les LLM actuels ne sont pas capables d'un raisonnement sain et cohérent, comme le montre ici leur échec même sur une tâche aussi simple que le problème AIW présenté, et que permettre un tel raisonnement est encore un sujet de recherche fondamentale.
Il s'agit également d'une mise en garde contre les prétentions exagérées de ces modèles, qui ne se limitent pas à être des artefacts de recherche fondamentale et qui servent à résoudre des problèmes dans divers contextes réels. Ces prétentions sont souvent formulées par différentes entités commerciales qui tentent de positionner leurs modèles comme un produit solide et mature pour les utilisateurs finaux.
Par exemple, les annonces et les prétentions de Command R+ qui s'effondre entièrement sur le problème AIW, en soulignant sa grande valeur pour les « capacités critiques clés » ou les « cas d'utilisation réels des entreprises », et en mettant l'accent sur les capacités de raisonnement fondamentales supposées présentes. Il en va de même pour de nombreux autres modèles commerciaux qui revendiquent une valeur élevée du produit.
Il s'agit également d'une mise en garde contre les prétentions exagérées de ces modèles, qui ne se limitent pas à être des artefacts de recherche fondamentale et qui servent à résoudre des problèmes dans divers contextes réels. Ces prétentions sont souvent formulées par différentes entités commerciales qui tentent de positionner leurs modèles comme un produit solide et mature pour les utilisateurs finaux.
Par exemple, les annonces et les prétentions de Command R+ qui s'effondre entièrement sur le problème AIW, en soulignant sa grande valeur pour les « capacités critiques clés » ou les « cas d'utilisation réels des entreprises », et en mettant l'accent sur les capacités de raisonnement fondamentales supposées présentes. Il en va de même pour de nombreux autres modèles commerciaux qui revendiquent une valeur élevée du produit.
Pour effectuer une recherche fondamentale en vue d'améliorer les capacités de raisonnement actuellement insatisfaisantes des LLM, il est donc important que l'ensemble du processus de création du modèle soit entièrement ouvert et reproductible. Le processus comprend notamment : la composition de l'ensemble de données et l'ensemble de données lui-même, le code source pour l'entraînement, le modèle entraîné lui-même, la procédure d'étalonnage normalisée.
Les modèles qui n'ont que des poids ouverts ne permettent pas d'analyser correctement ce qui a pu se passer pendant la formation et qui a pu entraîner une dégradation des capacités de raisonnement. Par exemple, la modification de la composition de l'ensemble de données ou de la procédure de formation elle-même. Les modèles fermés accessibles uniquement via l'API ne permettent souvent même pas une évaluation correcte, car, par exemple, les paramètres par défaut tels que l'invite du système et d'autres hyperparamètres d'inférence peuvent rester invisibles pour les parties indépendantes chargées de l'évaluation.
Les chercheurs pensent que pour progresser dans l'étude de la manière d'évaluer et d'installer des compétences de raisonnement appropriées dans les futurs modèles, il faut nécessairement que l'ensemble du pipeline de formation d'un modèle, en particulier la composition de l'ensemble de données, souvent négligée, soit open-source, faute de quoi les affirmations sur les capacités de raisonnement resteront non fondées et intrasparentes.
Les chercheurs concluent :
Face à ces premiers résultats, nous aimerions appeler la communauté scientifique et technologique du ML à travailler ensemble pour fournir les mises à jour nécessaires des benchmarks LLM actuels qui ne parviennent manifestement pas à découvrir les faiblesses et les différences importantes entre les modèles étudiés. Ces mises à jour pourraient comporter des ensembles de problèmes similaires à l'AIW étudié. Elles devraient être simples, pour sonder un type spécifique de déficience de raisonnement, mais personnalisables, offrant ainsi une variété combinatoire suffisante pour assurer la robustesse contre la contamination potentielle par la mémorisation.
Nous pensons que les tests de référence solides et fiables devraient suivre le principe de falsifiabilité de Karl Popper : ne pas essayer de confirmer et de mettre en évidence les capacités du modèle, ce qui est tentant surtout dans un contexte commercial, mais au contraire tout faire pour briser la fonction du modèle, mettre en évidence ses déficits, et ainsi montrer des voies possibles pour l'amélioration du modèle, ce qui est la façon de procéder de la méthode scientifique.
L'élaboration de tels repères de raisonnement dans un effort commun nous donnera un outil pour nous protéger des affirmations exagérées sur la fonction du modèle et pour naviguer correctement sur la voie de l'amélioration de l'état actuel, qui n'est pas encore satisfaisant.
Nous pensons que les tests de référence solides et fiables devraient suivre le principe de falsifiabilité de Karl Popper : ne pas essayer de confirmer et de mettre en évidence les capacités du modèle, ce qui est tentant surtout dans un contexte commercial, mais au contraire tout faire pour briser la fonction du modèle, mettre en évidence ses déficits, et ainsi montrer des voies possibles pour l'amélioration du modèle, ce qui est la façon de procéder de la méthode scientifique.
L'élaboration de tels repères de raisonnement dans un effort commun nous donnera un outil pour nous protéger des affirmations exagérées sur la fonction du modèle et pour naviguer correctement sur la voie de l'amélioration de l'état actuel, qui n'est pas encore satisfaisant.
Et vous ?
Pensez-vous que cette étude est crédible ou pertinente ?
Quel est votre avis sur le sujet ?
Voir aussi :
GPT-4o arrive en tête du classement des modèles d'IA les plus performants de LMSYS Chatbot Arena avec un score Elo de 1 289, surpassant ainsi Gemini Pro 1.5 de Google et Claude 3 Opus d'Anthropic
Les IA classées par QI, l'IA dépasse 100 points de QI pour la première fois, avec la sortie de Claude-3, plus intelligente que l'Américain moyen et les modèles GPT-4 d'OpenAI et Gemini de Google
Les grands modèles de langage (LLM) ne peuvent pas s'autocorriger dans les tâches de raisonnement, selon une étude de DeepMind. L'autocorrection pourrait même nuire aux performances de ces modèles