IdentifiantMot de passe
Loading...
Mot de passe oublié ?Je m'inscris ! (gratuit)

Vous êtes nouveau sur Developpez.com ? Créez votre compte ou connectez-vous afin de pouvoir participer !

Vous devez avoir un compte Developpez.com et être connecté pour pouvoir participer aux discussions.

Vous n'avez pas encore de compte Developpez.com ? Créez-en un en quelques instants, c'est entièrement gratuit !

Si vous disposez déjà d'un compte et qu'il est bien activé, connectez-vous à l'aide du formulaire ci-dessous.

Identifiez-vous
Identifiant
Mot de passe
Mot de passe oublié ?
Créer un compte

L'inscription est gratuite et ne vous prendra que quelques instants !

Je m'inscris !

Les LLM sont mauvais en inférence logique, mais excellents pour produire un « charabia fluide », et leurs capacités de raisonnement simulé sont un « mirage fragile »,
Selon une étude

Le , par Mathis Lucas

0PARTAGES

4  0 
Les LLM sont mauvais en inférence logique, mais excellents pour produire un « charabia fluide », et leurs capacités de raisonnement simulé sont un « mirage fragile »
selon une étude

Une nouvelle étude met en lumière le manque de fiabilité frappant des modèles axés sur le raisonnement. Elle rapporte que ces systèmes produisent souvent des réponses incohérentes et logiquement erronées lorsque les questions contiennent des clauses non pertinentes ou s'écartent même légèrement des modèles courants trouvés dans leurs données d'entraînement. L'étude a conclu que les capacités de raisonnement simulé des modèles sont « en grande partie un mirage fragile ». Des études antérieures ont remis en cause la capacité de ces modèles à comprendre les concepts logiques généraux ou à saisir avec précision leur propre « processus de pensée ».

L'IA est-elle prête pour remplacer les humains ? Des rapports signalent que de nombreuses organisations ont déjà supprimé des emplois au profit de l'IA. Parallèlement, des recherches récentes suggèrent que ces organisations vont peut-être trop vite en besogne, sans évaluer tous les risques ou conséquences. Selon Apple et d'autres chercheurs, le raisonnement simulé dans les grands modèles de langage semble être loin d'égaler le raisonnement humain.

Alors que la crainte que l'IA remplace un jour les humains devient de plus en plus forte, un nouvel article de recherche se demande « si la technologie est même proche de penser comme nous ». L'article a été récemment prépublié par le Data Mining and Machine Learning Lab de l'université d'État de l'Arizona.


Les chercheurs ont testé le raisonnement simulé par chaîne de pensée des systèmes dans des conditions contrôlées, mesurant leur compétence face à des problèmes logiques qui s'écartent des données d'entraînement. Il s'avère que l'IA est loin d'être parfaite, incapable de s'adapter à des tâches simples. Selon l'équipe, les modèles ne sont pas des raisonneurs fondés sur des principes, mais plutôt des simulateurs de textes ressemblant à du raisonnement.

Citation Envoyé par Extrait du rapport de l'étude


Les résultats suggèrent que les progrès apparemment importants réalisés par les modèles de chaîne de pensée (Chain-of-Thought - CoT) sont « en grande partie un mirage fragile » qui deviennent fragiles et sujets à l'échec même en cas de changements modérés dans la distribution. Plutôt que de démontrer une véritable compréhension du texte, le raisonnement CoT dans le cadre de transformations de tâches semble refléter une reproduction des modèles appris pendant la formation.

Si le raisonnement en chaîne des grands modèles de langage tente d'imiter les processus de pensée humains, il reproduit en fin de compte ces schémas de pensée basés sur les efforts humains antérieurs à travers lesquels il a été formé. Il lui manque la capacité inhérente de raisonner ou de comprendre, ce qui en fait un « mirage » présentant de sérieuses limites. Cela suggère que ces modèles d'IA ne sont pas aussi fiables que leurs créateurs le prétendent.

Une étude d'Apple a également remis en question les progrès vantés par OpenAI, Google et Anthropic en matière de raisonnement des modèles d'IA. Ces entreprises sont les têtes d'affiche de la course à l'IA. Selon le rapport, la précision de cette technique s'effondre entièrement face à des problèmes complexes.

Les chercheurs d'Apple ont étudié les capacités de raisonnement des modèles et les limites des évaluations actuelles sur le benchmark GSM8K. Ils ont constaté que les LLM manquent encore de compétences de base en matière de raisonnement. Ils introduisent également GSM-Symbolic, un nouveau benchmark avec de multiples variantes conçu pour fournir des informations plus approfondies sur les capacités de raisonnement mathématique des modèles.

Évaluation de la capacité de raisonnement généralisé des modèles

Afin de tester la capacité de raisonnement généralisé d'un LLM de manière objective et mesurable, les chercheurs ont créé un environnement d'entraînement LLM spécialement contrôlé appelé DataAlchemy. La configuration crée de petits modèles entraînés sur des exemples de deux transformations de texte extrêmement simples, suivis d'un entraînement supplémentaire qui démontre ces deux fonctions exécutées dans différents ordres et combinaisons.


Ces modèles simplifiés ont ensuite été testés sur diverses tâches, dont certaines correspondaient précisément ou étroitement aux modèles fonctionnels des données d'entraînement, et d'autres qui nécessitaient des compositions fonctionnelles partiellement ou totalement « hors domaine » pour les données de formation.

Par exemple, un modèle entraîné sur des données montrant deux décalages cycliques pourrait être invité à effectuer une nouvelle transformation impliquant deux décalages ROT cypher (ou chiffrement par rotation). Les réponses finales et les étapes de raisonnement ont été comparées à la réponse souhaitée à l'aide des scores BLEU (Bilingual Evaluation Understudy) et de la distance de Levenshtein afin d'obtenir une mesure objective de leur précision.

Comme l'avaient supposé les chercheurs, ces modèles de base ont commencé à échouer de manière catastrophique lorsqu'on leur a demandé de généraliser de nouveaux ensembles de transformations qui n'étaient pas directement démontrés dans les données d'entraînement.

Bien que les modèles aient souvent essayé de généraliser de nouvelles règles logiques basées sur des modèles similaires dans les données d'entraînement, cela conduisait assez souvent le modèle à établir « des chemins de raisonnement corrects, mais des réponses incorrectes ». Dans d'autres cas, le modèle trouvait parfois des réponses correctes associées à des « chemins de raisonnement infidèles » qui ne suivaient pas une logique.

« Plutôt que de démontrer une véritable compréhension du texte, le raisonnement CoT dans le cadre de transformations de tâches semble refléter une reproduction des schémas appris pendant l'entraînement », écrivent les chercheurs.

D'autres observations sur la capacité de raisonnement des modèles

L'étude a ensuite testé leur système contrôlé en utilisant des chaînes de texte légèrement plus courtes ou plus longues que celles trouvées dans les données d'entraînement, ou qui nécessitaient des chaînes de fonctions de longueurs différentes de celles sur lesquelles il avait été entraîné. Dans les deux cas, la précision des résultats se détériore à mesure que l'écart [de longueur] augmente, ce qui indique l'échec de la généralisation dans les modèles.

Selon l'équipe, de petits écarts inconnus du modèle dans le format des tâches de test (par exemple, l'introduction de lettres ou de symboles ne figurant pas dans les données d'entraînement) entraînaient une « forte dégradation » des performances et affectaient l'exactitude des réponses du modèle.

L'utilisation du réglage fin supervisé (supervised fine-tuning / SFT) pour introduire ne serait-ce qu'une petite quantité de données pertinentes dans l'ensemble d'apprentissage peut souvent conduire à de fortes améliorations dans les performances de ce type de modèle « hors domaine ». Mais les chercheurs affirment que ce type de « patch » pour diverses tâches logiques ne doit pas être confondu avec une véritable généralisation.

« S'appuyer sur le SFT pour corriger chaque échec [hors domaine] est une stratégie réactive et non viable qui ne résout pas le problème fondamental : le manque de capacité de raisonnement abstrait du modèle », note l'équipe. Selon elle, ces modèles de chaîne de pensée sont « une forme sophistiquée de correspondance structurée de modèles » qui se dégrade considérablement dès qu'ils sont légèrement éloignés de leur distribution d'entraînement.

Conclusion

Après tout, l'IA est une création humaine. Lorsque les grands modèles de langage échouent dans le traitement de tâches logiques, le réglage fin supervisé est toujours une solution, mais il repose essentiellement sur le jugement humain manuel. Même dans ce cas, l'objectif ultime est que les modèles saisissent fondamentalement le raisonnement logique, et non qu'ils improvisent leurs réponses aux requêtes à l'aide de réplications de modèles simulés.

De plus, la capacité des grands modèles de langage à générer « un non-sens fluide » crée « une fausse aura de fiabilité » qui ne résiste pas à un audit minutieux. En bref : vérifiez toujours les réponses des chatbots, même si le modèle d'IA que vous avez choisi semble particulièrement fiable.

Source : rapport de l'étude (PDF)

Et vous ?

Quel est votre avis sur le sujet ?

Voir aussi

« L'AGI n'est pas à portée de main. L'incapacité des modèles d'IA actuels à apprendre de façon autonome et continue, comme les humains, freine leur évolution vers une superintelligence », selon un critique

L'étude d'Apple prouve que les modèles d'IA basés sur le LLM sont défectueux car ils ne peuvent pas raisonner :
"Nous n'avons trouvé aucune preuve de raisonnement formel dans les modèles de langage"


Une étude d'Apple remet en question les progrès en «raisonnement» IA vantés par OpenAI, Google et Anthropic : leurs LRM subissent un « effondrement complet de leur précision » face à des problèmes complexes
Vous avez lu gratuitement 2 612 articles depuis plus d'un an.
Soutenez le club developpez.com en souscrivant un abonnement pour que nous puissions continuer à vous proposer des publications.

Une erreur dans cette actualité ? Signalez-nous-la !