IdentifiantMot de passe
Loading...
Mot de passe oublié ?Je m'inscris ! (gratuit)

Vous êtes nouveau sur Developpez.com ? Créez votre compte ou connectez-vous afin de pouvoir participer !

Vous devez avoir un compte Developpez.com et être connecté pour pouvoir participer aux discussions.

Vous n'avez pas encore de compte Developpez.com ? Créez-en un en quelques instants, c'est entièrement gratuit !

Si vous disposez déjà d'un compte et qu'il est bien activé, connectez-vous à l'aide du formulaire ci-dessous.

Identifiez-vous
Identifiant
Mot de passe
Mot de passe oublié ?
Créer un compte

L'inscription est gratuite et ne vous prendra que quelques instants !

Je m'inscris !

Une nouvelle étude montre pourquoi les modèles d'IA à raisonnement simulé ne sont pas encore à la hauteur de leur réputation,
Performants sur les problèmes standards, mais limités en raisonnement olympique

Le , par Bruno

5PARTAGES

3  0 
Une nouvelle étude montre pourquoi les modèles d'IA à raisonnement simulé ne sont pas encore à la hauteur de leur réputation,
performants sur les problèmes standards, mais limités en raisonnement olympique

Les modèles d’IA actuels, bien qu’impressionnants dans la résolution de problèmes mathématiques standards, révèlent des lacunes profondes dès qu’il s’agit de raisonnement complexe, comme en témoigne leur piètre performance face aux épreuves des Olympiades de mathématiques. Une étude récente menée par des chercheurs de l’ETH Zurich et de l’INSAIT souligne que ces modèles, malgré leur capacité à générer des réponses plausibles, échouent à produire des preuves rigoureuses, souvent en raison d’erreurs logiques, d’hypothèses non justifiées ou d’une confiance excessive dans des schémas préétablis. Cette limite met en lumière la différence cruciale entre la reconnaissance de motifs et un véritable raisonnement mathématique, remettant en question les prétentions des modèles dits à « raisonnement simulé ».

Pourtant, certains défenseurs estiment que ces échecs ne disqualifient pas entièrement l’utilité des grands modèles de langage (LLM), notamment dans des contextes où une réponse approximative peut servir de point de départ à une réflexion humaine. D’autres, plus sceptiques, y voient la confirmation que ces systèmes ne sont que des « artistes de la connerie », incapables de comprendre les concepts qu’ils manipulent. L’étude suggère que des approches hybrides, combinant réseaux neuronaux et raisonnement symbolique (comme AlphaGeometry), pourraient offrir une voie prometteuse. Mais pour l’heure, les modèles purement statistiques restent prisonniers de leurs données d’entraînement, loin de la flexibilité et de la profondeur d’un esprit humain.

Les chercheurs ont examiné comment la production d'une chaîne de pensée, une séquence d'étapes de raisonnement intermédiaires, améliore de manière significative les capacités des grands modèles de langage à traiter des tâches complexes. Plus précisément, ils démontrent que ces aptitudes au raisonnement émergent naturellement dans les modèles suffisamment volumineux grâce à une technique simple : l'incitation par chaîne de pensée (chain-of-thought prompting), où quelques exemples illustrant un raisonnement pas à pas sont fournis en amorce.

Les expériences, menées sur trois grands modèles de langage, révèlent que cette approche améliore leurs performances sur diverses tâches, allant de l'arithmétique au raisonnement symbolique. Les gains observés sont parfois spectaculaires. Par exemple, avec seulement huit exemples de chaînes de pensée, le modèle PaLM 540B atteint une précision record sur le benchmark GSM8K (problèmes mathématiques en langage naturel), surpassant même un GPT-3 finement ajusté et équipé d'un vérificateur. Cette méthode met en évidence le potentiel des LLM à développer des raisonnements structurés, simplement en les guidant avec des démonstrations explicites.


La sollicitation de la chaîne de pensée permet à de grands modèles de langage de se confronter à des tâches arithmétiques, de bon sens et de raisonnement symbolique complexes. Les processus de raisonnement en chaîne sont mis en évidence.

Le modèle Qwen2-Math d'Alibaba démontre des performances supérieures en matière de raisonnement mathématique complexe. Lors des évalutions, Qwen2-Math-72B-Instruct a surpassé les modèles propriétaires tels que GPT-4o et Claude 3.5 dans les tâches liées aux mathématiques. Malgré cela, Alibaba continuera à améliorer la capacité de ses modèles à résoudre des problèmes mathématiques complexes et difficiles.

De récents benchmarks mathématiques pour les grands modèles de langage tels que MathArena indiquent que les modèles de raisonnement de pointe atteignent des performances impressionnantes lors de compétitions mathématiques telles que l'AIME, le modèle principal, Gemini-2.5-Pro, obtenant des scores comparables à ceux des meilleurs compétiteurs humains. Cependant, ces benchmarks évaluent les modèles uniquement sur la base des réponses numériques finales, en négligeant le raisonnement rigoureux et la génération de preuves qui sont essentiels pour les tâches mathématiques du monde réel. Pour remédier à ce problème, les chercheurs présentent la première évaluation complète du raisonnement de la solution complète pour les problèmes mathématiques difficiles.

En utilisant des annotateurs humains experts, les chercheurs ont évalué plusieurs modèles de raisonnement de pointe sur les six problèmes de l'USAMO 2025 dans les heures qui ont suivi leur publication. Les résultats révèlent que tous les modèles testés ont connu des difficultés importantes : seul Gemini-2.5-Pro atteint un score non trivial de 25 %, alors que tous les autres modèles atteignent moins de 5 %. Grâce à une analyse détaillée des traces de raisonnement, ils identifient les modes d'échec les plus courants et trouvent plusieurs artefacts indésirables provenant des stratégies d'optimisation employées pendant l'apprentissage du modèle. Dans l'ensemble, les résultats suggèrent que les LLMs actuels sont inadéquats pour les tâches de raisonnement mathématique rigoureux, soulignant le besoin d'améliorations substantielles dans les capacités de raisonnement et de génération de preuves.

Les modèles d'IA les plus performants d'aujourd'hui, qui prétendent « raisonner », présentent une curieuse contradiction : Ils peuvent résoudre des problèmes mathématiques courants avec précision, mais échouent souvent lorsqu'il s'agit de formuler des preuves mathématiques plus approfondies, comme c'est le cas dans les concours. C'est ce qui ressort d'une recherche sur les modèles de raisonnement simulé (SR), initialement publiée en mars et mise à jour en avril, qui est passée inaperçue. Cette recherche constitue une étude de cas instructive sur les limites mathématiques des modèles de raisonnement simulé, malgré les déclarations marketing parfois grandiloquentes des fournisseurs d'IA.

Les modèles de raisonnement simulé se distinguent des grands modèles de langage traditionnels par le fait qu'ils ont été entraînés à produire un processus de « réflexion » étape par étape (souvent appelé « chaîne de pensée ») pour résoudre des problèmes. Il convient de noter que le terme « simulé » dans ce cas ne signifie pas que les modèles ne raisonnent pas du tout, mais plutôt qu'ils ne raisonnent pas nécessairement en utilisant les mêmes techniques que les humains. Cette distinction est importante car le raisonnement humain lui-même est difficile à définir.

Le nouveau document de recherche, intitulé « Proof or Bluff ? Evaluating LLMs on 2025 USA Math Olympiad », émane d'une équipe de chercheurs de l'ETH Zurich et de l'INSAIT de l'université de Sofia, dirigée par Ivo Petrov et Martin Vechev. Dans cette étude, lorsque les chercheurs ont présenté aux modèles de SR des problèmes tirés des Olympiades américaines de mathématiques 2025 organisées par la Mathematical Association of America, la plupart des modèles ont obtenu un score moyen inférieur à 5 % lorsqu'ils ont généré des preuves mathématiques complètes, bien qu'un modèle ait affiché des performances nettement meilleures, quoique encore limitées. Ce score représente le pourcentage moyen du total des points possibles (attribués sur l'échelle standard de 0 à 7 par problème, comme pour l'Olympiade officielle) obtenus par les modèles au cours de plusieurs tentatives, les correcteurs humains experts accordant un crédit partiel pour les étapes correctes.

Pourquoi les IA échouent aux Olympiades de maths malgré leurs performances en calcul

Google DeepMind annonce que ses modèles AlphaProof et AlphaGeometry 2 ont permis à l'IA d'obtenir la médaille d'argent en résolvant les problèmes des Olympiades internationales de mathématiques. AlphaProof est un nouveau système d'apprentissage par renforcement pour le raisonnement mathématique formel, tandis qu'AlphaGeometry 2 est un système de résolution de géométrie. Les systèmes d'IA ont résolu un problème en quelques minutes et ont mis jusqu'à trois jours pour résoudre les autres.

Pour comprendre l'importance de cet écart de capacité, vous devez comprendre la différence entre les réponses aux problèmes mathématiques et les preuves mathématiques. Un problème mathématique, c'est comme si on vous demandait : « Quel est le rapport 2+2 ? » ou « Solve for x in this equation » (Résolvez x dans cette équation). Vous avez seulement besoin de la bonne réponse. Mais les preuves mathématiques, c'est comme si on vous demandait : « Expliquez pourquoi 2+2=4 en suivant des étapes logiques » ou « Prouvez que cette formule fonctionne pour tous les nombres possibles ». Les preuves exigent que vous expliquiez votre raisonnement et que vous montriez pourquoi quelque chose doit être vrai, et non que vous donniez simplement une réponse.

Les Olympiades américaines de mathématiques (USAMO) servent de qualification pour les Olympiades internationales de mathématiques et placent la barre beaucoup plus haut que des tests tels que l'American Invitational Mathematics Examination (AIME). Si les problèmes de l'AIME sont difficiles, ils exigent des réponses entières. L'USAMO exige des candidats qu'ils rédigent des preuves mathématiques complètes, dont l'exactitude, l'exhaustivité et la clarté sont évaluées sur une période de neuf heures et deux jours.

Les chercheurs ont évalué plusieurs modèles de raisonnement IA sur les six problèmes de l'USAMO 2025 peu de temps après leur publication, minimisant ainsi tout risque que les problèmes fassent partie des données d'entraînement des modèles. Ces modèles comprenaient QwQ-32B de Qwen, DeepSeek R1, Gemini 2.0 Flash Thinking (Experimental) et Gemini 2.5 Pro de Google, o1-pro et o3-mini-high d'OpenAI, Claude 3.7 Sonnet with Extended Thinking d'Anthropic et Grok 3 de xAI.

Capture d'écran du site MathArena des chercheurs montrant les scores de précision des modèles de RS pour chaque problème de l'USAMO


Bien qu'un modèle, le Gemini 2.5 Pro de Google, ait obtenu un score moyen plus élevé de 10,1 sur 42 points (~24 %), les résultats ont montré une chute massive des performances par rapport aux critères de référence de l'AIME. Les autres modèles évalués ont été nettement moins performants : DeepSeek R1 et Grok 3 ont obtenu en moyenne 2,0 points chacun, Flash-Thinking de Google 1,8, Claude 3.7 d'Anthropic 1,5, QwQ de Qwen et o1-pro d'OpenAI 1,2. La solution o3-mini d'OpenAI a obtenu le score moyen le plus bas avec seulement 0,9 point (~2,1 %). Sur près de 200 solutions générées par l'ensemble des modèles testés, aucune n'a obtenu un score parfait, quel que soit le problème.

Bien que les nouveaux modèles 03 et o4-mini-high d'OpenAI n'aient pas été examinés dans le cadre de cette étude, les benchmarks du site MathArena des chercheurs montrent que o3-high a obtenu un score global de 21,73 % et o4-mini-high un score global de 19,05 % sur l'USAMO. Cependant, ces résultats sont potentiellement contaminés car ils ont été mesurés après le concours, ce qui signifie que les nouveaux modèles OpenAI auraient pu inclure les solutions dans les données d'entraînement.

Les LLM face au raisonnement mathématique rigoureux

L’étude menée par l’ETH Zurich et l’INSAIT confirme une limite fondamentale des LLM : leur incapacité à produire des preuves mathématiques solides, malgré leur aptitude à générer des réponses plausibles. Les erreurs récurrentes (logiques floues, hypothèses non justifiées, surconfiance dans des schémas stéréotypés) révèlent que ces modèles excellent dans la reconnaissance de motifs, mais échouent à maîtriser le raisonnement déductif. Cette distinction est cruciale : un LLM peut imiter une démonstration sans en comprendre la cohérence profonde, comme un étudiant récitant un théorème sans saisir sa signification.

Cependant, il serait réducteur d’en conclure que ces modèles sont inutiles. Leur force réside dans leur capacité à structurer une réflexion approximative, offrant des pistes exploitables par un humain – une fonction déjà précieuse en recherche ou en pédagogie. Les critiques qui les qualifient de simples « artistes de la connerie » négligent cette complémentarité potentielle. En revanche, l’étude met en lumière un écueil majeur : les LLM ne signalent pas leurs incertitudes, présentant des conjectures erronées avec une assurance trompeuse. Ce défaut, combiné à leur tendance à halluciner, limite leur fiabilité dans des contextes exigeants.

La piste neuro-symbolique (comme AlphaGeometry) semble prometteuse pour pallier ces lacunes, en intégrant des contraintes formelles au raisonnement statistique. Mais cela ne résout pas le cœur du problème : les LLM actuels manquent de compréhension sémantique. Ils manipulent des concepts sans les ancrer dans une représentation abstraite vérifiable – une limite qui les distingue radicalement de l’intelligence humaine.

En somme, cette étude rappelle que les LLM sont des outils approximatifs, non des raisonneurs autonomes. Leurs performances en mathématiques reflètent moins une intelligence émergente qu’une optimisation sophistiquée de la prédiction textuelle. Pour progresser, l’IA devra sans doute dépasser le paradigme purement statistique – soit par des architectures hybrides, soit par une refonte radicale de leur approche du raisonnement. En attendant, leur utilité reste conditionnelle : précieux comme assistants, dangereux comme oracles.

Source : Studies by researchers at ETH Zurich and INSAIT Sofia University

Et vous ?

Les conclusions de l'étude sont-elles pertinentes et crédibles ?

Peut-on vraiment parler d’« échec » quand certains modèles atteignent ~24 % de réussite, alors que la majorité des humains échoueraient aussi ?

Si les LLM génèrent des réponses plausibles mais fausses, cela signifie-t-il qu’ils « simulent » le raisonnement, ou qu’ils manquent simplement de rigueur formelle ?

Voir aussi :

Le nouveau modèle d'IA Qwen2-Math d'Alibaba excelle en mathématiques et surpasse ses concurrents, il a fait preuve de performances supérieures en matière de raisonnement mathématique complexe

Certains modèles d'IA sont plus précis en mathématiques si on leur demande de répondre comme s'ils étaient un personnage de Star Trek, selon des ingénieurs en apprentissage automatique
Vous avez lu gratuitement 2 articles depuis plus d'un an.
Soutenez le club developpez.com en souscrivant un abonnement pour que nous puissions continuer à vous proposer des publications.

Une erreur dans cette actualité ? Signalez-nous-la !