L'étude d'Apple prouve que les modèles d'IA basés sur le LLM sont défectueux car ils ne peuvent pas raisonner :

"Nous n'avons trouvé aucune preuve de raisonnement formel dans les modèles de langage"

Le 14 octobre 2024 à 11:59, par Jade Emy

230PARTAGES

Des scientifiques d'Apple spécialisés dans l'IA ont étudié les capacités de raisonnement des grands modèles de langage (LLM) et les limites des évaluations actuelles sur le GSM8K. Ils ont constaté que les modèles d'IA basés sur le LLM manquent encore de compétences de base en matière de raisonnement. Ils introduisent également GSM-Symbolic, un nouveau benchmark avec de multiples variantes conçu pour fournir des informations plus approfondies sur les capacités de raisonnement mathématique des LLM.

Malgré leurs fortes capacités de raisonnement inductif, les grands modèles de langage (LLM) ont tendance à manquer de capacités de raisonnement déductif, en particulier dans les tâches impliquant un raisonnement "contrefactuel". Ce résultat d'une étude de l'université de Californie soulève des questions sur les problèmes de raisonnement fondamentaux auxquels sont confrontés les LLM.

Pour rappel, un grand modèle de langage (LLM) est un modèle informatique capable de générer du langage ou d'effectuer d'autres tâches de traitement du langage naturel. Depuis d'août 2024, les LLM les plus performants sont des réseaux neuronaux artificiels construits avec une architecture basée sur un décodeur à transformateur uniquement, qui permet un traitement et une génération efficaces de données textuelles à grande échelle. Ces modèles acquièrent un pouvoir prédictif concernant la syntaxe, la sémantique et les ontologies inhérentes aux corpus de langage humain, mais ils héritent également des inexactitudes et des biais présents dans les données sur lesquelles ils sont formés.

Une nouvelle étude d'Apple confirme cette étude de l'université de Californie. L'étude des scientifiques d'Apple spécialisés dans l'intelligence artificielle (IA) a révélé que les moteurs basés sur les LLM, tels que ceux de Meta et d'OpenAI, manquent encore de compétences de base en matière de raisonnement. Ils prouvent que les modèles d'IA basés sur le LLM sont défectueux car ils ne peuvent pas raisonner.

Chute des performances des modèles sur GSM-Symbolic par rapport au GSM8K

Le groupe a proposé un nouveau critère de référence, GSM-Symbolic, pour aider les autres à mesurer les capacités de raisonnement de divers grands modèles de langage (LLM). Leurs premiers tests révèlent que de légères modifications dans la formulation des requêtes peuvent donner lieu à des réponses sensiblement différentes, ce qui compromet la fiabilité des modèles.

Le groupe a étudié la "fragilité" du raisonnement mathématique en ajoutant à ses requêtes des informations contextuelles qu'un humain pourrait comprendre, mais qui ne devraient pas affecter les mathématiques fondamentales de la solution. Cela a donné lieu à des réponses variables, ce qui ne devrait pas se produire.

"Plus précisément, les performances de tous les modèles diminuent [même] lorsque seules les valeurs numériques de la question sont modifiées dans le benchmark GSM-Symbolic", écrit le groupe dans son rapport. "En outre, la fragilité du raisonnement mathématique dans ces modèles [démontre] que leurs performances se détériorent de manière significative à mesure que le nombre de clauses dans une question augmente."

L'étude a montré que l'ajout d'une seule phrase qui semble fournir des informations pertinentes pour une question de mathématiques donnée peut réduire la précision de la réponse finale jusqu'à 65 %. "Il est tout simplement impossible de construire des agents fiables sur cette base, où la modification d'un mot ou deux de manière non pertinente ou l'ajout de quelques informations non pertinentes peut donner une réponse différente", conclut l'étude.

Les chercheurs présentent l'étude :

Les progrès récents des LLM ont suscité l'intérêt pour leurs capacités de raisonnement formel, en particulier en mathématiques. Le benchmark GSM8K est largement utilisé pour évaluer le raisonnement mathématique des modèles sur des questions de niveau scolaire. Bien que les performances des LLM sur le GSM8K se soient considérablement améliorées ces dernières années, il n'est pas certain que leurs capacités de raisonnement mathématique aient réellement progressé, ce qui soulève des questions quant à la fiabilité des mesures rapportées.

Pour répondre à ces préoccupations, nous menons une étude à grande échelle sur plusieurs modèles ouverts et fermés de pointe. Pour surmonter les limites des évaluations existantes, nous introduisons GSM-Symbolic, un benchmark amélioré créé à partir de modèles symboliques qui permettent la génération d'un ensemble varié de questions. GSM-Symbolic permet des évaluations plus contrôlables, fournissant des informations clés et des mesures plus fiables pour mesurer les capacités de raisonnement des modèles.

Nos résultats révèlent que les LLM présentent une variance notable lorsqu'ils répondent à différentes instanciations de la même question. Plus précisément, la performance de tous les modèles diminue lorsque seules les valeurs numériques de la question sont modifiées dans le benchmark GSM-Symbolique. En outre, nous étudions la fragilité du raisonnement mathématique dans ces modèles et démontrons que leurs performances se détériorent de manière significative à mesure que le nombre de clauses dans une question augmente.

Nous émettons l'hypothèse que ce déclin est dû au fait que les LLM actuels ne sont pas capables d'un véritable raisonnement logique ; au lieu de cela, ils tentent de reproduire les étapes de raisonnement observées dans leurs données d'apprentissage. Lorsque nous ajoutons une seule clause qui semble pertinente à la question, nous observons des baisses de performance significatives (jusqu'à 65%) dans tous les modèles de pointe, même si la clause ajoutée ne contribue pas à la chaîne de raisonnement nécessaire pour atteindre la réponse finale. Dans l'ensemble, notre travail fournit une compréhension plus nuancée des capacités et des limites des LLMs dans le raisonnement mathématique.

Précision des modèles sur GSM-Symbolic

Cette étude révèle plusieurs points :

[LIST][*]La limite des benchmarks actuels : Les résultats de l'étude approfondie révèle une variabilité significative des performances entre les différentes instanciations de la même question, ce qui remet en question la fiabilité des résultats actuels du GSM8K qui s'appuient sur des mesures de précision à un seul point. Les chercheurs ont constaté que si les LLM présentent une certaine robustesse aux changements dans les noms propres, ils sont plus sensibles aux variations dans les valeurs numériques. Ils ont également observé que la performance des LLM se détériore à mesure que la complexité des questions augmente.

[*]La véritable nature du raisonnement des LLM : L'introduction de GSM-NoOp expose une faille critique dans la capacité des LLM à comprendre véritablement les concepts mathématiques et à discerner les informations pertinentes pour la résolution de problèmes. L'ajout d'informations apparemment pertinentes mais finalement sans importance au raisonnement logique du problème a conduit à des baisses de performance substantielles allant jusqu'à 65% dans tous les modèles de pointe.

Ces résultats soulignent les limites significatives de la capacité des LLM à effectuer un véritable raisonnement mathématique. La grande variance de la performance des LLM sur différentes versions de la même question, leur chute substantielle de performance avec une augmentation mineure de la difficulté, et leur sensibilité aux informations sans importance indiquent que leur raisonnement est fragile. Il peut ressembler davantage à un appariement sophistiqué qu'à un véritable raisonnement logique.

Il est intéressant de noter que les LLM se débattent même lorsqu'on leur fournit plusieurs exemples de la même question ou des exemples contenant des informations similaires non pertinentes. Cela suggère des problèmes plus profonds dans leurs...

La fin de cet article est réservée aux abonnés. Soutenez le Club Developpez.com en prenant un abonnement pour que nous puissions continuer à vous proposer des publications.

Une erreur dans cette actualité ? Signalez-nous-la !

Votre nom : Votre e-mail :

Décrivez l'erreur que vous souhaitez porter à notre connaissance :

Identifiez-vous

Créer un compte

L'étude d'Apple prouve que les modèles d'IA basés sur le LLM sont défectueux car ils ne peuvent pas raisonner :

"Nous n'avons trouvé aucune preuve de raisonnement formel dans les modèles de langage"

Identifiant
Mot de passe

Mot de passe oublié ?

Identifiez-vous

Créer un compte

L'étude d'Apple prouve que les modèles d'IA basés sur le LLM sont défectueux car ils ne peuvent pas raisonner : "Nous n'avons trouvé aucune preuve de raisonnement formel dans les modèles de langage"

L'étude d'Apple prouve que les modèles d'IA basés sur le LLM sont défectueux car ils ne peuvent pas raisonner :

"Nous n'avons trouvé aucune preuve de raisonnement formel dans les modèles de langage"