IdentifiantMot de passe
Loading...
Mot de passe oublié ?Je m'inscris ! (gratuit)

Vous êtes nouveau sur Developpez.com ? Créez votre compte ou connectez-vous afin de pouvoir participer !

Vous devez avoir un compte Developpez.com et être connecté pour pouvoir participer aux discussions.

Vous n'avez pas encore de compte Developpez.com ? Créez-en un en quelques instants, c'est entièrement gratuit !

Si vous disposez déjà d'un compte et qu'il est bien activé, connectez-vous à l'aide du formulaire ci-dessous.

Identifiez-vous
Identifiant
Mot de passe
Mot de passe oublié ?
Créer un compte

L'inscription est gratuite et ne vous prendra que quelques instants !

Je m'inscris !

Une étude d'Apple remet en question les progrès en «raisonnement» IA vantés par OpenAI, Google et Anthropic : leurs LRM subissent un « effondrement complet de leur précision » face à des problèmes complexes

Le , par Stéphane le calme

18PARTAGES

7  0 
Une étude d'Apple remet radicalement en question les progrès en « raisonnement » IA vantés par OpenAI, Google et Anthropic :
leurs LRM subissent un « effondrement complet de leur précision » face à des problèmes complexes

Une nouvelle étude publiée par des chercheurs d'Apple jette un pavé dans la mare bouillonnante de l'intelligence artificielle. Le document, intitulé « L'illusion de la pensée », remet en question de manière significative les capacités de raisonnement des modèles d'IA les plus avancés, affirmant qu'ils subissent un « effondrement complet de leur précision » face à des problèmes complexes. Cette conclusion représente un revers potentiellement majeur pour des entreprises comme OpenAI, Google et Anthropic, qui ont massivement investi dans le développement et la promotion des capacités de raisonnement de leurs intelligences artificielles.

L'étude d'Apple, qui a testé les principaux modèles de raisonnement étendus (LRM) (y compris ceux d'OpenAI, de Google et d'Anthropic) a utilisé une série d'énigmes logiques contrôlées plutôt que les benchmarks habituels, souvent critiqués pour leur potentielle contamination des données d'entraînement. Les chercheurs ont ainsi pu évaluer la capacité des modèles à résoudre des problèmes de complexité variable. Pour mémoire, les Large Reasoning Models (LRM) sont des LLM conçus pour mener des raisonnements complexes en exploitant la technique du Chain-of-Thought (CoT), qui consiste à demander à l'IA de décomposer son raisonnement en plusieurs étapes intermédiaires.


Apple a suggéré que les modèles de raisonnement de l'IA ont des limites claires lorsqu'il s'agit de résoudre des problèmes complexes, mettant à mal les arguments des développeurs selon lesquels ils sont utiles pour des tâches qu'un humain résoudrait traditionnellement. Les modèles de raisonnement peuvent résoudre des problèmes plus complexes que les grands modèles de langage standard (LLM) en les décomposant en une série de problèmes plus petits qui sont résolus un par un.

Un grand nombre de fournisseurs majeurs, dont OpenAI, Anthropic et Google, ont souligné les avantages des modèles de raisonnement au cours de l'année écoulée, les présentant comme une arme clé dans l'arsenal de l'IA d'entreprise.

Le document, intitulé The Illusion of Thinking : Understanding the Strengths and Limitations of Reasoning Models via the Lens of Problem Complexity, cite en particulier les modèles o1 et o3 d'OpenAI, DeepSeek R1, Claude 3.7 Sonnet d'Anthropic et la dernière version de Gemini de Google.

Citation Envoyé par Résumé des chercheurs d'Apple
Les dernières générations de modèles de langage d'avant-garde ont introduit de grands modèles de raisonnement (LRM) qui génèrent des processus de réflexion détaillés avant de fournir des réponses. Bien que ces modèles démontrent une amélioration des performances sur les benchmarks de raisonnement, leurs capacités fondamentales, leurs propriétés de mise à l'échelle et leurs limites restent insuffisamment comprises. Les évaluations actuelles se concentrent principalement sur des critères mathématiques et de codage établis, en mettant l'accent sur l'exactitude de la réponse finale.

Cependant, ce paradigme d'évaluation souffre souvent de la contamination des données et ne donne pas d'indications sur la structure et la qualité des traces de raisonnement. Dans ce travail, nous étudions systématiquement ces lacunes à l'aide d'environnements de puzzle contrôlables qui permettent une manipulation précise de la complexité de la composition tout en maintenant des structures logiques cohérentes. Cette configuration permet d'analyser non seulement les réponses finales, mais aussi les traces de raisonnement interne, ce qui permet de mieux comprendre comment les LRM « pensent ».

Grâce à des expériences approfondies portant sur divers puzzles, nous montrons que les LRM d'avant-garde sont confrontés à un effondrement complet de la précision au-delà de certaines complexités.

De plus, ils présentent une limite d'échelle contre-intuitive : leur effort de raisonnement augmente avec la complexité du problème jusqu'à un certain point, puis diminue malgré un budget de jetons adéquat. En comparant les LRM avec leurs homologues LLM standard sous un calcul d'inférence équivalent, nous identifions trois régimes de performance : (1) les tâches de faible complexité où les modèles standard surpassent étonnamment les LRM, (2) les tâches de complexité moyenne où une réflexion supplémentaire dans les LRM démontre un avantage, et (3) les tâches de haute complexité où les deux modèles subissent un effondrement complet.

Nous avons constaté que les LRM ont des limites en matière de calcul exact : ils n'utilisent pas d'algorithmes explicites et raisonnent de manière incohérente d'une énigme à l'autre. Nous étudions également les traces de raisonnement de manière plus approfondie, en étudiant les modèles de solutions explorées et en analysant le comportement informatique des modèles, en mettant en lumière leurs forces, leurs limites et en soulevant des questions cruciales sur leurs véritables capacités de raisonnement.

Un « effondrement complet de la précision »

Les résultats sont sans appel. Alors que les modèles d'IA se sont montrés performants sur des tâches de faible complexité, leur efficacité s'est effondrée de manière spectaculaire à mesure que la difficulté des énigmes augmentait. Au-delà d'un certain seuil de complexité, la précision de tous les modèles testés est tombée à zéro.

Le rapport met en évidence un phénomène paradoxal : face à des problèmes plus ardus, non seulement les modèles ne parviennent pas à trouver la solution, mais ils semblent également « sous-penser » ; ils utilisent moins de ressources de calcul (tokens) qu'ils n'en ont à leur disposition, comme s'ils abandonnaient avant même d'avoir exploré toutes les voies possibles. À l'inverse, pour des problèmes plus simples, les modèles ont tendance à « sur-penser », trouvant la bonne solution rapidement mais continuant à gaspiller des ressources en explorant inutilement d'autres pistes.

Selon les chercheurs d'Apple, ce comportement suggère que le « raisonnement » de ces IA s'apparente davantage à une reconnaissance de formes sophistiquée qu'à une véritable capacité de résolution de problèmes généralisable. Les modèles excellent lorsqu'ils reconnaissent des schémas présents dans leurs données d'entraînement, mais sont démunis face à des défis logiques qui sortent de ce cadre.

Un coup de semonce pour les géants de l'IA

Ces conclusions sont un véritable camouflet pour les leaders de l'IA tels qu'OpenAI, Google et Anthropic. Ces derniers mois, ces entreprises ont communiqué abondamment sur les progrès fulgurants de leurs modèles en matière de raisonnement, les présentant comme une étape cruciale vers l'intelligence artificielle générale (AGI). Les démonstrations de modèles capables de résoudre des problèmes mathématiques complexes ou de décomposer des questions en étapes logiques ont alimenté l'idée que l'IA était sur le point de rivaliser avec l'intellect humain.

Le rapport d'Apple suggère que cette vision est peut-être trop optimiste, voire illusoire. Il met en lumière les limites fondamentales des architectures actuelles des modèles de langage et soulève des questions sur la viabilité de l'approche actuelle pour parvenir à une IA véritablement intelligente.


L'approche actuelle de l'IA pourrait avoir atteint ses limites

L'article conclut que l'approche actuelle de l'IA pourrait avoir atteint ses limites. Il a testé des modèles tels que o3 d'OpenAI, Gemini Thinking de Google, Claude 3.7 Sonnet-Thinking d'Anthropic et DeepSeek-R1c.

Se référant au « raisonnement généralisable » (ou à la capacité d'un modèle d'IA à appliquer une conclusion étroite de manière plus large) l'article indique : « Ces observations remettent en question les hypothèses dominantes sur les capacités de LRM et suggèrent que les approches actuelles peuvent se heurter à des obstacles fondamentaux en matière de raisonnement généralisable ».

Gary Marcus, un universitaire américain qui est devenu une voix éminente de la prudence sur les capacités des modèles d'IA, a décrit l'article d'Apple comme étant « assez dévastateur ». Dans son bulletin d'information Substack, Marcus a ajouté que les résultats soulevaient des questions sur la course à l'intelligence générale artificielle (AGI), stade théorique de l'IA auquel un système est capable d'égaler un être humain dans l'exécution de n'importe quelle tâche intellectuelle.

Se référant aux grands modèles de langage [LLM] qui sous-tendent des outils tels que ChatGPT, Marcus a écrit : « Quiconque pense que les LLM sont une voie directe vers le type d'AGI qui pourrait fondamentalement transformer la société pour le bien se fait des illusions ».

Andrew Rogoyski, de l'Institute for People-Centred AI à l'université de Surrey, a déclaré que l'article d'Apple indiquait que l'industrie était « encore en train de tâter le terrain » en matière d'IAG et qu'elle pourrait avoir atteint un « cul-de-sac » dans son approche actuelle. « Le fait que les grands modèles de raisonnement perdent le fil en ce qui concerne les problèmes complexes, alors qu'ils sont performants pour les problèmes de complexité moyenne et faible, implique que nous nous trouvons dans un cul-de-sac potentiel dans les approches actuelles », a-t-il déclaré.

Quelles implications pour l'avenir de l'IA ?

La publication de cette étude, juste avant la conférence annuelle des développeurs d'Apple (WWDC), est perçue par beaucoup comme une manœuvre stratégique. Alors qu'Apple est souvent considéré comme ayant pris du retard dans la course à l'IA générative, cette recherche lui permet de se positionner comme un acteur plus prudent et scientifiquement rigoureux, qui met en garde contre l'emballement excessif du secteur.

Au-delà de la stratégie d'entreprise, les implications pour le développement futur de l'IA sont profondes. Si la reconnaissance de formes est la limite des modèles actuels, de nouvelles approches et architectures pourraient être nécessaires pour franchir le prochain palier vers une intelligence plus flexible et adaptable. La recherche d'Apple pourrait ainsi inciter la communauté scientifique à réévaluer les méthodes d'évaluation des IA et à se concentrer sur le développement de modèles dotés de capacités de raisonnement plus robustes et fiables.

En conclusion, en jetant un froid sur les promesses du raisonnement par l'IA, Apple ne se contente pas de critiquer ses concurrents. L'entreprise de Cupertino soulève des questions fondamentales sur la trajectoire actuelle de l'intelligence artificielle et invite à une réflexion plus approfondie sur les défis qui restent à surmonter pour que la machine puisse un jour véritablement « penser ».

Source : étude d'Apple

Et vous ?

Que pensez-vous de ce rapport ? Le trouvez-vous crédible ou pertinent ?

L'effondrement du raisonnement face à des tâches complexes remet-il en cause le cœur même de l'architecture des LLM ?

Peut-on encore croire à une forme d’intelligence artificielle « générale » si les modèles échouent à raisonner de manière fiable ?

En publiant cette étude, Apple expose-t-il son propre retard dans le domaine ou se positionne-t-il judicieusement comme l'acteur le plus lucide et rigoureux du marché ?

Après de telles conclusions, comment les géants de l'IA peuvent-ils continuer à promouvoir les capacités de « raisonnement » de leurs modèles sans perdre en crédibilité ? OpenAI, Google ou Anthropic oseront-ils reconnaître les limites de leurs modèles ?

Si le « raisonnement » est une illusion, l'engouement actuel et les investissements colossaux dans les startups d'IA sont-ils justifiés ? Assisterons-nous à une correction du marché ?
Vous avez lu gratuitement 53 articles depuis plus d'un an.
Soutenez le club developpez.com en souscrivant un abonnement pour que nous puissions continuer à vous proposer des publications.

Une erreur dans cette actualité ? Signalez-nous-la !

Avatar de Matthieu Vergne
Expert éminent https://www.developpez.com
Le 10/06/2025 à 18:03
Les LLM sont adaptés pour traiter du langage naturel. Si on veut traiter du langage mathématique, il faut entraîner le modèle plus spécifiquement là-dessus, pas tout mélanger. Quand on fait des maths, on n'applique pas le même genre de raisonnement que quand on essaye d'être "logique" vis à vis de Mme Michu. Un LLM est statistique : il mélange les pratiques pour s'appuyer sur des tendances. C'est bien pour être créatif mais pas pour être rigoureux, qui nécessite de suivre des règles à la lettre, pas des approximations statistiques.

Au delà de ça, le Chain-of-Thoughts (CoT) reproduit bien ce qu'on est censé faire pour régler un problème : le décomposer en problèmes plus simples. Mais quand un problème monte en complexité, on fait comment, nous humains, pour le résoudre ? On le découper à nouveau, de manière récursive, jusqu'à atteindre un niveau de complexité suffisamment simple. L'IA générative est entrainée sur nos processus de raisonnements, il faut donc lui appliquer les même recettes pour l'exploiter au mieux.

Autrement dit, le CoT n'est pas juste un intermédiaire à mettre en spoiler avant d'afficher la réponse finale. C'est une étape intégrante du raisonnement, qu'il faut reproduire de manière récursive selon la complexité du problème, jusqu'à atteindre le niveau adéquat pour produire la réponse. On appelle ça du Tree of Thoughts (ToT). Mais à développer toujours plus le nombre d'étapes, on peut vite atteindre la limite de tokens. Et si une erreur se produit, on ne veut pas redérouler tout le process, juste corriger l'étape loupée. Il faut alors non pas compter sur 1 requête à l'IA qui s'appuierait sur du ToT, mais sur une récursion de requêtes à l'IA s'appuyant sur du CoT, ou plutôt demandant à l'IA d'établir les étapes pour résoudre 1 problème donné, qu'il soit le problème d'origine ou un problème intermédiaire identifié via une requête précédente. A chaque étape il s'agit donc d'identifier le niveau de complexité, puis soit de demander sa résolution, soit de fournir une liste d'étapes à suivre pour le faire.
2  0 
Avatar de jnspunk
Membre habitué https://www.developpez.com
Le 10/06/2025 à 13:10
Après si on regarde la complexité des puzzles où les modèles de langage commencent à se foirer, on s'aperçoit qu'ils sont bien plus capables que la moyenne des êtres humains.
Une tour d'hanoi avec 8 disques? Je serais incapable moi même de le résoudre.
1  0 
Avatar de Shepard
Membre expérimenté https://www.developpez.com
Le 10/06/2025 à 15:49
Citation Envoyé par jnspunk Voir le message
Après si on regarde la complexité des puzzles où les modèles de langage commencent à se foirer, on s'aperçoit qu'ils sont bien plus capables que la moyenne des êtres humains.
Une tour d'hanoi avec 8 disques? Je serais incapable moi même de le résoudre.


Je trouve ça assez malin comme test, personnellement, parce que ça oblige à effectuer un raisonnemnet et pas juste faire de l'essai/erreur. La mémoire nécessaire à un LLM pour résoudre ce problème est exponentielle, alors que pour nous qui savons réfléchir et généraliser, il suffit de se rendre compte que si on met le plus petit disque au milieu (appelons-le 1), alors le disque 2 ira à droite, le disque 3 au milieu, le disque 4 à droite, etc.

Autrement dit, les disques pairs au milieu et les disques impairs à droite si on démarre en mettant le 1 à droite. Un LLM ne peut a priori pas _comprendre_ cela. mais @jnspunk, je suis sûr que contrairement à ce que tu affirmes, tu l'aurais compris après quelques secondes passées à jouer avec les disques.
1  0 
Avatar de JackIsJack
Membre éclairé https://www.developpez.com
Le 11/06/2025 à 16:19
Conclusions : 1) pas si simple d'être intelligent face à un problème complexe. 2) Certaines intelligences buttent étonnament sur certains problèmes simples.

... Mais ça, on le savait déjà !
0  0 
Avatar de droggo
Expert confirmé https://www.developpez.com
Le 10/06/2025 à 13:01
Bonjour,

C'est très simple :

La secte Appel a toujours considéré
que ce qui ne vient pas d'elle est nul et/ou truqué.

2  4