Une étude d'Apple remet en question les progrès en «raisonnement» IA vantés par OpenAI, Google et Anthropic : leurs LRM subissent un « effondrement complet de leur précision » face à des problèmes complexes

Le 10 juin 2025 à 11:55, par Stéphane le calme

162PARTAGES

Une nouvelle étude publiée par des chercheurs d'Apple jette un pavé dans la mare bouillonnante de l'intelligence artificielle. Le document, intitulé « L'illusion de la pensée », remet en question de manière significative les capacités de raisonnement des modèles d'IA les plus avancés, affirmant qu'ils subissent un « effondrement complet de leur précision » face à des problèmes complexes. Cette conclusion représente un revers potentiellement majeur pour des entreprises comme OpenAI, Google et Anthropic, qui ont massivement investi dans le développement et la promotion des capacités de raisonnement de leurs intelligences artificielles.

L'étude d'Apple, qui a testé les principaux modèles de raisonnement étendus (LRM) (y compris ceux d'OpenAI, de Google et d'Anthropic) a utilisé une série d'énigmes logiques contrôlées plutôt que les benchmarks habituels, souvent critiqués pour leur potentielle contamination des données d'entraînement. Les chercheurs ont ainsi pu évaluer la capacité des modèles à résoudre des problèmes de complexité variable. Pour mémoire, les Large Reasoning Models (LRM) sont des LLM conçus pour mener des raisonnements complexes en exploitant la technique du Chain-of-Thought (CoT), qui consiste à demander à l'IA de décomposer son raisonnement en plusieurs étapes intermédiaires.

Apple a suggéré que les modèles de raisonnement de l'IA ont des limites claires lorsqu'il s'agit de résoudre des problèmes complexes, mettant à mal les arguments des développeurs selon lesquels ils sont utiles pour des tâches qu'un humain résoudrait traditionnellement. Les modèles de raisonnement peuvent résoudre des problèmes plus complexes que les grands modèles de langage standard (LLM) en les décomposant en une série de problèmes plus petits qui sont résolus un par un.

Un grand nombre de fournisseurs majeurs, dont OpenAI, Anthropic et Google, ont souligné les avantages des modèles de raisonnement au cours de l'année écoulée, les présentant comme une arme clé dans l'arsenal de l'IA d'entreprise.

Le document, intitulé The Illusion of Thinking : Understanding the Strengths and Limitations of Reasoning Models via the Lens of Problem Complexity, cite en particulier les modèles o1 et o3 d'OpenAI, DeepSeek R1, Claude 3.7 Sonnet d'Anthropic et la dernière version de Gemini de Google.

Envoyé par Résumé des chercheurs d'Apple

Les dernières générations de modèles de langage d'avant-garde ont introduit de grands modèles de raisonnement (LRM) qui génèrent des processus de réflexion détaillés avant de fournir des réponses. Bien que ces modèles démontrent une amélioration des performances sur les benchmarks de raisonnement, leurs capacités fondamentales, leurs propriétés de mise à l'échelle et leurs limites restent insuffisamment comprises. Les évaluations actuelles se concentrent principalement sur des critères mathématiques et de codage établis, en mettant l'accent sur l'exactitude de la réponse finale.

Cependant, ce paradigme d'évaluation souffre souvent de la contamination des données et ne donne pas d'indications sur la structure et la qualité des traces de raisonnement. Dans ce travail, nous étudions systématiquement ces lacunes à l'aide d'environnements de puzzle contrôlables qui permettent une manipulation précise de la complexité de la composition tout en maintenant des structures logiques cohérentes. Cette configuration permet d'analyser non seulement les réponses finales, mais aussi les traces de raisonnement interne, ce qui permet de mieux comprendre comment les LRM « pensent ».

Grâce à des expériences approfondies portant sur divers puzzles, nous montrons que les LRM d'avant-garde sont confrontés à un effondrement complet de la précision au-delà de certaines complexités.

De plus, ils présentent une limite d'échelle contre-intuitive : leur effort de raisonnement augmente avec la complexité du problème jusqu'à un certain point, puis diminue malgré un budget de jetons adéquat. En comparant les LRM avec leurs homologues LLM standard sous un calcul d'inférence équivalent, nous identifions trois régimes de performance : (1) les tâches de faible complexité où les modèles standard surpassent étonnamment les LRM, (2) les tâches de complexité moyenne où une réflexion supplémentaire dans les LRM démontre un avantage, et (3) les tâches de haute complexité où les deux modèles subissent un effondrement complet.

Nous avons constaté que les LRM ont des limites en matière de calcul exact : ils n'utilisent pas d'algorithmes explicites et raisonnent de manière incohérente d'une énigme à l'autre. Nous étudions également les traces de raisonnement de manière plus approfondie, en étudiant les modèles de solutions explorées et en analysant le comportement informatique des modèles, en...

La fin de cet article est réservée aux abonnés. Soutenez le Club Developpez.com en prenant un abonnement pour que nous puissions continuer à vous proposer des publications.

Une erreur dans cette actualité ? Signalez-nous-la !

Votre nom : Votre e-mail :

Décrivez l'erreur que vous souhaitez porter à notre connaissance :