
L'étude d'Apple, qui a testé les principaux modèles de raisonnement étendus (LRM) (y compris ceux d'OpenAI, de Google et d'Anthropic) a utilisé une série d'énigmes logiques contrôlées plutôt que les benchmarks habituels, souvent critiqués pour leur potentielle contamination des données d'entraînement. Les chercheurs ont ainsi pu évaluer la capacité des modèles à résoudre des problèmes de complexité variable. Pour mémoire, les Large Reasoning Models (LRM) sont des LLM conçus pour mener des raisonnements complexes en exploitant la technique du Chain-of-Thought (CoT), qui consiste à demander à l'IA de décomposer son raisonnement en plusieurs étapes intermédiaires.
Apple a suggéré que les modèles de raisonnement de l'IA ont des limites claires lorsqu'il s'agit de résoudre des problèmes complexes, mettant à mal les arguments des développeurs selon lesquels ils sont utiles pour des tâches qu'un humain résoudrait traditionnellement. Les modèles de raisonnement peuvent résoudre des problèmes plus complexes que les grands modèles de langage standard (LLM) en les décomposant en une série de problèmes plus petits qui sont résolus un par un.
Un grand nombre de fournisseurs majeurs, dont OpenAI, Anthropic et Google, ont souligné les avantages des modèles de raisonnement au cours de l'année écoulée, les présentant comme une arme clé dans l'arsenal de l'IA d'entreprise.
Le document, intitulé The Illusion of Thinking : Understanding the Strengths and Limitations of Reasoning Models via the Lens of Problem Complexity, cite en particulier les modèles o1 et o3 d'OpenAI, DeepSeek R1, Claude 3.7 Sonnet d'Anthropic et la dernière version de Gemini de Google.

Un « effondrement complet de la précision »
Les résultats sont sans appel. Alors que les modèles d'IA se sont montrés performants sur des tâches de faible complexité, leur efficacité s'est effondrée de manière spectaculaire à mesure que la difficulté des énigmes augmentait. Au-delà d'un certain seuil de complexité, la précision de tous les modèles testés est tombée à zéro.
Le rapport met en évidence un phénomène paradoxal : face à des problèmes plus ardus, non seulement les modèles ne parviennent pas à trouver la solution, mais ils semblent également « sous-penser » ; ils utilisent moins de ressources de calcul (tokens) qu'ils n'en ont à leur disposition, comme s'ils abandonnaient avant même d'avoir exploré toutes les voies possibles. À l'inverse, pour des problèmes plus simples, les modèles ont tendance à « sur-penser », trouvant la bonne solution rapidement mais continuant à gaspiller des ressources en explorant inutilement d'autres pistes.
Selon les chercheurs d'Apple, ce comportement suggère que le « raisonnement » de ces IA s'apparente davantage à une reconnaissance de formes sophistiquée qu'à une véritable capacité de résolution de problèmes généralisable. Les modèles excellent lorsqu'ils reconnaissent des schémas présents dans leurs données d'entraînement, mais sont démunis face à des défis logiques qui sortent de ce cadre.
Un coup de semonce pour les géants de l'IA
Ces conclusions sont un véritable camouflet pour les leaders de l'IA tels qu'OpenAI, Google et Anthropic. Ces derniers mois, ces entreprises ont communiqué abondamment sur les progrès fulgurants de leurs modèles en matière de raisonnement, les présentant comme une étape cruciale vers l'intelligence artificielle générale (AGI). Les démonstrations de modèles capables de résoudre des problèmes mathématiques complexes ou de décomposer des questions en étapes logiques ont alimenté l'idée que l'IA était sur le point de rivaliser avec l'intellect humain.
Le rapport d'Apple suggère que cette vision est peut-être trop optimiste, voire illusoire. Il met en lumière les limites fondamentales des architectures actuelles des modèles de langage et soulève des questions sur la viabilité de l'approche actuelle pour parvenir à une IA véritablement intelligente.
L'approche actuelle de l'IA pourrait avoir atteint ses limites
L'article conclut que l'approche actuelle de l'IA pourrait avoir atteint ses limites. Il a testé des modèles tels que o3 d'OpenAI, Gemini Thinking de Google, Claude 3.7 Sonnet-Thinking d'Anthropic et DeepSeek-R1c.
Se référant au « raisonnement généralisable » (ou à la capacité d'un modèle d'IA à appliquer une conclusion étroite de manière plus large) l'article indique : « Ces observations remettent en question les hypothèses dominantes sur les capacités de LRM et suggèrent que les approches actuelles peuvent se heurter à des obstacles fondamentaux en matière de raisonnement généralisable ».
Gary Marcus, un universitaire américain qui est devenu une voix éminente de la prudence sur les capacités des modèles d'IA, a décrit l'article d'Apple comme étant « assez dévastateur ». Dans son bulletin d'information Substack, Marcus a ajouté que les résultats soulevaient des questions sur la course à l'intelligence générale...
La fin de cet article est réservée aux abonnés. Soutenez le Club Developpez.com en prenant un abonnement pour que nous puissions continuer à vous proposer des publications.