Une nouvelle étude publiée par des chercheurs d'Apple jette un pavé dans la mare bouillonnante de l'intelligence artificielle. Le document, intitulé « L'illusion de la pensée », remet en question de manière significative les capacités de raisonnement des modèles d'IA les plus avancés, affirmant qu'ils subissent un « effondrement complet de leur précision » face à des problèmes complexes. Cette conclusion représente un revers potentiellement majeur pour des entreprises comme OpenAI, Google et Anthropic, qui ont massivement investi dans le développement et la promotion des capacités de raisonnement de leurs intelligences artificielles.L'étude d'Apple, qui a testé les principaux modèles de raisonnement étendus (LRM) (y compris ceux d'OpenAI, de Google et d'Anthropic) a utilisé une série d'énigmes logiques contrôlées plutôt que les benchmarks habituels, souvent critiqués pour leur potentielle contamination des données d'entraînement. Les chercheurs ont ainsi pu évaluer la capacité des modèles à résoudre des problèmes de complexité variable. Pour mémoire, les Large Reasoning Models (LRM) sont des LLM conçus pour mener des raisonnements complexes en exploitant la technique du Chain-of-Thought (CoT), qui consiste à demander à l'IA de décomposer son raisonnement en plusieurs étapes intermédiaires.
Apple a suggéré que les modèles de raisonnement de l'IA ont des limites claires lorsqu'il s'agit de résoudre des problèmes complexes, mettant à mal les arguments des développeurs selon lesquels ils sont utiles pour des tâches qu'un humain résoudrait traditionnellement. Les modèles de raisonnement peuvent résoudre des problèmes plus complexes que les grands modèles de langage standard (LLM) en les décomposant en une série de problèmes plus petits qui sont résolus un par un.
Un grand nombre de fournisseurs majeurs, dont OpenAI, Anthropic et Google, ont souligné les avantages des modèles de raisonnement au cours de l'année écoulée, les présentant comme une arme clé dans l'arsenal de l'IA d'entreprise.
Le document, intitulé The Illusion of Thinking : Understanding the Strengths and Limitations of Reasoning Models via the Lens of Problem Complexity, cite en particulier les modèles o1 et o3 d'OpenAI, DeepSeek R1, Claude 3.7 Sonnet d'Anthropic et la dernière version de Gemini de Google.
La fin de cet article est réservée aux abonnés. Soutenez le Club Developpez.com en prenant un abonnement pour que nous puissions continuer à vous proposer des publications.

