Les modèles d’IA actuels, bien qu’impressionnants dans la résolution de problèmes mathématiques standards, révèlent des lacunes profondes dès qu’il s’agit de raisonnement complexe, comme en témoigne leur piètre performance face aux épreuves des Olympiades de mathématiques. Une étude récente menée par des chercheurs de l’ETH Zurich et de l’INSAIT souligne que ces modèles, malgré leur capacité à générer des réponses plausibles, échouent à produire des preuves rigoureuses, souvent en raison d’erreurs logiques, d’hypothèses non justifiées ou d’une confiance excessive dans des schémas préétablis. Cette limite met en lumière la différence cruciale entre la reconnaissance de motifs et un véritable raisonnement mathématique, remettant en question les prétentions des modèles dits à « raisonnement simulé ».Pourtant, certains défenseurs estiment que ces échecs ne disqualifient pas entièrement l’utilité des grands modèles de langage (LLM), notamment dans des contextes où une réponse approximative peut servir de point de départ à une réflexion humaine. D’autres, plus sceptiques, y voient la confirmation que ces systèmes ne sont que des « artistes de la connerie », incapables de comprendre les concepts qu’ils manipulent. L’étude suggère que des approches hybrides, combinant réseaux neuronaux et raisonnement symbolique (comme AlphaGeometry), pourraient offrir une voie prometteuse. Mais pour l’heure, les modèles purement statistiques restent prisonniers de leurs données d’entraînement, loin de la flexibilité et de la profondeur d’un esprit humain.
Les chercheurs ont examiné comment la production d'une chaîne de pensée, une séquence d'étapes de raisonnement intermédiaires, améliore de manière significative les capacités des grands modèles de langage à traiter des tâches complexes. Plus précisément, ils démontrent que ces aptitudes au raisonnement émergent naturellement dans les modèles suffisamment volumineux grâce à une technique simple : l'incitation par chaîne de pensée (chain-of-thought prompting), où quelques exemples illustrant un raisonnement pas à pas sont fournis en amorce.
Les expériences, menées sur trois grands modèles de langage, révèlent que cette approche améliore leurs performances sur diverses tâches, allant de l'arithmétique au raisonnement symbolique. Les gains observés sont parfois spectaculaires. Par exemple, avec seulement huit exemples de chaînes de pensée, le modèle PaLM 540B atteint une précision record sur le benchmark GSM8K (problèmes mathématiques en langage naturel), surpassant même un GPT-3 finement ajusté et équipé d'un vérificateur. Cette méthode met en évidence le potentiel des LLM à développer des raisonnements structurés, simplement en les guidant avec des démonstrations explicites.
La sollicitation de la chaîne de pensée permet à de grands modèles de langage de se confronter à des tâches arithmétiques, de bon sens et de raisonnement symbolique complexes. Les processus de raisonnement en chaîne sont mis en évidence.
Le modèle Qwen2-Math d'Alibaba démontre des performances supérieures en matière de raisonnement mathématique complexe. Lors des évalutions, Qwen2-Math-72B-Instruct a surpassé les modèles propriétaires tels que GPT-4o et Claude 3.5 dans les tâches liées aux mathématiques. Malgré cela, Alibaba continuera à améliorer la capacité de ses modèles à résoudre des problèmes mathématiques complexes et difficiles.
De récents benchmarks mathématiques pour les grands modèles de langage tels que MathArena indiquent que les modèles de raisonnement de pointe atteignent des performances impressionnantes lors de compétitions mathématiques telles que l'AIME, le modèle principal, Gemini-2.5-Pro, obtenant des scores comparables à ceux des meilleurs compétiteurs humains. Cependant, ces benchmarks évaluent les modèles uniquement sur la base des réponses numériques finales, en négligeant le raisonnement rigoureux et la génération de preuves qui sont essentiels pour les tâches mathématiques du monde réel. Pour remédier à ce problème, les chercheurs présentent la première évaluation complète du raisonnement de la solution complète pour les problèmes mathématiques difficiles.
En utilisant des annotateurs humains experts, les chercheurs ont évalué plusieurs modèles de raisonnement de pointe sur les six problèmes de l'USAMO 2025 dans les heures qui ont suivi leur publication. Les résultats révèlent que tous les modèles testés ont connu des difficultés importantes : seul Gemini-2.5-Pro atteint un score non trivial de 25 %, alors que tous les autres modèles atteignent moins de 5 %. Grâce à une analyse détaillée des traces de raisonnement, ils identifient les modes d'échec les plus courants et trouvent plusieurs artefacts indésirables provenant des stratégies d'optimisation employées pendant l'apprentissage du modèle. Dans l'ensemble, les résultats suggèrent que les LLMs actuels sont inadéquats pour les tâches de raisonnement mathématique rigoureux, soulignant le besoin d'améliorations substantielles dans les capacités de raisonnement et de génération de preuves.
Les modèles d'IA les plus performants d'aujourd'hui, qui prétendent « raisonner », présentent une curieuse contradiction : Ils peuvent résoudre des problèmes mathématiques courants avec précision, mais échouent souvent lorsqu'il s'agit de formuler des preuves mathématiques plus approfondies, comme c'est le cas dans les concours. C'est ce qui ressort d'une recherche sur les modèles de raisonnement simulé (SR), initialement publiée en mars et mise à jour en avril, qui est passée inaperçue. Cette recherche constitue une étude de cas instructive sur les limites mathématiques des modèles de raisonnement simulé, malgré les déclarations marketing parfois grandiloquentes des fournisseurs d'IA.
Les modèles de raisonnement simulé se distinguent des grands modèles de langage traditionnels par le fait qu'ils ont été entraînés à produire un processus de « réflexion » étape par étape (souvent appelé « chaîne de pensée ») pour résoudre des...
La fin de cet article est réservée aux abonnés. Soutenez le Club Developpez.com en prenant un abonnement pour que nous puissions continuer à vous proposer des publications.