
leurs LRM subissent un « effondrement complet de leur précision » face à des problèmes complexes
Une nouvelle étude publiée par des chercheurs d'Apple jette un pavé dans la mare bouillonnante de l'intelligence artificielle. Le document, intitulé « L'illusion de la pensée », remet en question de manière significative les capacités de raisonnement des modèles d'IA les plus avancés, affirmant qu'ils subissent un « effondrement complet de leur précision » face à des problèmes complexes. Cette conclusion représente un revers potentiellement majeur pour des entreprises comme OpenAI, Google et Anthropic, qui ont massivement investi dans le développement et la promotion des capacités de raisonnement de leurs intelligences artificielles.
L'étude d'Apple, qui a testé les principaux modèles de raisonnement étendus (LRM) (y compris ceux d'OpenAI, de Google et d'Anthropic) a utilisé une série d'énigmes logiques contrôlées plutôt que les benchmarks habituels, souvent critiqués pour leur potentielle contamination des données d'entraînement. Les chercheurs ont ainsi pu évaluer la capacité des modèles à résoudre des problèmes de complexité variable. Pour mémoire, les Large Reasoning Models (LRM) sont des LLM conçus pour mener des raisonnements complexes en exploitant la technique du Chain-of-Thought (CoT), qui consiste à demander à l'IA de décomposer son raisonnement en plusieurs étapes intermédiaires.
Apple a suggéré que les modèles de raisonnement de l'IA ont des limites claires lorsqu'il s'agit de résoudre des problèmes complexes, mettant à mal les arguments des développeurs selon lesquels ils sont utiles pour des tâches qu'un humain résoudrait traditionnellement. Les modèles de raisonnement peuvent résoudre des problèmes plus complexes que les grands modèles de langage standard (LLM) en les décomposant en une série de problèmes plus petits qui sont résolus un par un.
Un grand nombre de fournisseurs majeurs, dont OpenAI, Anthropic et Google, ont souligné les avantages des modèles de raisonnement au cours de l'année écoulée, les présentant comme une arme clé dans l'arsenal de l'IA d'entreprise.
Le document, intitulé The Illusion of Thinking : Understanding the Strengths and Limitations of Reasoning Models via the Lens of Problem Complexity, cite en particulier les modèles o1 et o3 d'OpenAI, DeepSeek R1, Claude 3.7 Sonnet d'Anthropic et la dernière version de Gemini de Google.

Un « effondrement complet de la précision »
Les résultats sont sans appel. Alors que les modèles d'IA se sont montrés performants sur des tâches de faible complexité, leur efficacité s'est effondrée de manière spectaculaire à mesure que la difficulté des énigmes augmentait. Au-delà d'un certain seuil de complexité, la précision de tous les modèles testés est tombée à zéro.
Le rapport met en évidence un phénomène paradoxal : face à des problèmes plus ardus, non seulement les modèles ne parviennent pas à trouver la solution, mais ils semblent également « sous-penser » ; ils utilisent moins de ressources de calcul (tokens) qu'ils n'en ont à leur disposition, comme s'ils abandonnaient avant même d'avoir exploré toutes les voies possibles. À l'inverse, pour des problèmes plus simples, les modèles ont tendance à « sur-penser », trouvant la bonne solution rapidement mais continuant à gaspiller des ressources en explorant inutilement d'autres pistes.
Selon les chercheurs d'Apple, ce comportement suggère que le « raisonnement » de ces IA s'apparente davantage à une reconnaissance de formes sophistiquée qu'à une véritable capacité de résolution de problèmes généralisable. Les modèles excellent lorsqu'ils reconnaissent des schémas présents dans leurs données d'entraînement, mais sont démunis face à des défis logiques qui sortent de ce cadre.
Un coup de semonce pour les géants de l'IA
Ces conclusions sont un véritable camouflet pour les leaders de l'IA tels qu'OpenAI, Google et Anthropic. Ces derniers mois, ces entreprises ont communiqué abondamment sur les progrès fulgurants de leurs modèles en matière de raisonnement, les présentant comme une étape cruciale vers l'intelligence artificielle générale (AGI). Les démonstrations de modèles capables de résoudre des problèmes mathématiques complexes ou de décomposer des questions en étapes logiques ont alimenté l'idée que l'IA était sur le point de rivaliser avec l'intellect humain.
Le rapport d'Apple suggère que cette vision est peut-être trop optimiste, voire illusoire. Il met en lumière les limites fondamentales des architectures actuelles des modèles de langage et soulève des questions sur la viabilité de l'approche actuelle pour parvenir à une IA véritablement intelligente.
L'approche actuelle de l'IA pourrait avoir atteint ses limites
L'article conclut que l'approche actuelle de l'IA pourrait avoir atteint ses limites. Il a testé des modèles tels que o3 d'OpenAI, Gemini Thinking de Google, Claude 3.7 Sonnet-Thinking d'Anthropic et DeepSeek-R1c.
Se référant au « raisonnement généralisable » (ou à la capacité d'un modèle d'IA à appliquer une conclusion étroite de manière plus large) l'article indique : « Ces observations remettent en question les hypothèses dominantes sur les capacités de LRM et suggèrent que les approches actuelles peuvent se heurter à des obstacles fondamentaux en matière de raisonnement généralisable ».
Gary Marcus, un universitaire américain qui est devenu une voix éminente de la prudence sur les capacités des modèles d'IA, a décrit l'article d'Apple comme étant « assez dévastateur ». Dans son bulletin d'information Substack, Marcus a ajouté que les résultats soulevaient des questions sur la course à l'intelligence générale artificielle (AGI), stade théorique de l'IA auquel un système est capable d'égaler un être humain dans l'exécution de n'importe quelle tâche intellectuelle.
Se référant aux grands modèles de langage [LLM] qui sous-tendent des outils tels que ChatGPT, Marcus a écrit : « Quiconque pense que les LLM sont une voie directe vers le type d'AGI qui pourrait fondamentalement transformer la société pour le bien se fait des illusions ».
Andrew Rogoyski, de l'Institute for People-Centred AI à l'université de Surrey, a déclaré que l'article d'Apple indiquait que l'industrie était « encore en train de tâter le terrain » en matière d'IAG et qu'elle pourrait avoir atteint un « cul-de-sac » dans son approche actuelle. « Le fait que les grands modèles de raisonnement perdent le fil en ce qui concerne les problèmes complexes, alors qu'ils sont performants pour les problèmes de complexité moyenne et faible, implique que nous nous trouvons dans un cul-de-sac potentiel dans les approches actuelles », a-t-il déclaré.
Quelles implications pour l'avenir de l'IA ?
La publication de cette étude, juste avant la conférence annuelle des développeurs d'Apple (WWDC), est perçue par beaucoup comme une manœuvre stratégique. Alors qu'Apple est souvent considéré comme ayant pris du retard dans la course à l'IA générative, cette recherche lui permet de se positionner comme un acteur plus prudent et scientifiquement rigoureux, qui met en garde contre l'emballement excessif du secteur.
Au-delà de la stratégie d'entreprise, les implications pour le développement futur de l'IA sont profondes. Si la reconnaissance de formes est la limite des modèles actuels, de nouvelles approches et architectures pourraient être nécessaires pour franchir le prochain palier vers une intelligence plus flexible et adaptable. La recherche d'Apple pourrait ainsi inciter la communauté scientifique à réévaluer les méthodes d'évaluation des IA et à se concentrer sur le développement de modèles dotés de capacités de raisonnement plus robustes et fiables.
En conclusion, en jetant un froid sur les promesses du raisonnement par l'IA, Apple ne se contente pas de critiquer ses concurrents. L'entreprise de Cupertino soulève des questions fondamentales sur la trajectoire actuelle de l'intelligence artificielle et invite à une réflexion plus approfondie sur les défis qui restent à surmonter pour que la machine puisse un jour véritablement « penser ».
Source : étude d'Apple
Et vous ?






Vous avez lu gratuitement 12 articles depuis plus d'un an.
Soutenez le club developpez.com en souscrivant un abonnement pour que nous puissions continuer à vous proposer des publications.
Soutenez le club developpez.com en souscrivant un abonnement pour que nous puissions continuer à vous proposer des publications.