IdentifiantMot de passe
Loading...
Mot de passe oublié ?Je m'inscris ! (gratuit)

Vous êtes nouveau sur Developpez.com ? Créez votre compte ou connectez-vous afin de pouvoir participer !

Vous devez avoir un compte Developpez.com et être connecté pour pouvoir participer aux discussions.

Vous n'avez pas encore de compte Developpez.com ? Créez-en un en quelques instants, c'est entièrement gratuit !

Si vous disposez déjà d'un compte et qu'il est bien activé, connectez-vous à l'aide du formulaire ci-dessous.

Identifiez-vous
Identifiant
Mot de passe
Mot de passe oublié ?
Créer un compte

L'inscription est gratuite et ne vous prendra que quelques instants !

Je m'inscris !

L'IA engloutit des milliards, mais ne peut pas résoudre les puzzles ARC qui ne prennent parfois que quelques secondes à un être humain,
Elle reste dépourvue de la capacité de généralisation d'un humain

Le , par Mathis Lucas

5PARTAGES

4  0 
L'IA engloutit des milliards, mais ne peut pas résoudre les puzzles ARC qui ne prennent parfois que quelques secondes à un être humain
elle reste dépourvue de la capacité de généralisation d’un humain

L'excitation des premiers jours à l'égard de l'IA générative laisse progressivement place à une désillusion. Les progrès des grands modèles de langage (LLM) ont ralenti, certains experts estimant que la technologie a atteint un plafond. Une étude récente a révélé que jusqu'à 95 % pour des projets pilotes d'IA générative en entreprise échouent. À ce jour, l'IA peine à résoudre les puzzles ARC qui ne prennent que quelques secondes à un être humain. Malgré les centaines de milliards de dollars déversés dans l'IA générative en trois ans, la technologie est encore loin de tenir ces promesses. Au lieu de cela, l'IA suscite des frustrations et des vagues de protestation.

Il existe plusieurs façons de tester l'intelligence d'un système : fluidité conversationnelle, compréhension écrite ou physique extrêmement complexe. Mais certains des tests les plus susceptibles de déconcerter les IA sont ceux que les humains trouvent relativement faciles, voire divertissants. Bien que les IA s'améliorent dans des tâches complexes, cela ne signifie pas pour autant qu'elles sont sur le point d'atteindre l'intelligence artificielle générale (AGI).

En 2019, François Chollet a créé l’Abstraction and Reasoning Corpus (ARC), un ensemble de puzzles destinés à tester la capacité des IA à généraliser à partir de très peu d’exemples. Ces puzzles demandent d’identifier une règle implicite à partir de quelques exemples et de l’appliquer à un nouveau cas. Si les humains résolvent ces exercices parfois presque instantanément, les IA actuelles échouent encore fréquemment, ce qui suscite plusieurs questions.

L'ARC est devenu la base de l'ARC Prize Foundation, un organisme à but non lucratif qui développe le test, désormais une référence utilisée par tous les principaux modèles du secteur. Le groupe développe de nouveaux tests et utilise régulièrement deux d'entre eux (ARC-AGI-1 et son successeur plus difficile, ARC-AGI-2). Fin août, le groupe a lancé ARC-AGI-3, spécialement conçu pour tester les agents d'IA, et qui consiste à leur faire jouer à des jeux vidéo.


Le test ARC a été développé par le chercheur en IA François Chollet en 2019. Greg Kamradt, président de l'ARC Prize Foundation, chercheur en IA et entrepreneur, a expliqué comment ces tests évaluent les IA, ce qu'ils nous apprennent sur le potentiel de l'AGI et pourquoi ils sont souvent difficiles pour les modèles de langage, même si de nombreux humains ont tendance à les trouver relativement faciles. Voici quelques éléments de compréhension.

Quelle définition de l'intelligence est mesurée par le test ARC-AGI-1 ?

L'intelligence est votre capacité à apprendre de nouvelles choses. Nous savons déjà que l'IA peut gagner aux échecs. Nous savons qu'elle peut gagner au Go. Mais ces modèles ne peuvent pas généraliser à de nouveaux domaines ; ils ne peuvent pas apprendre l'anglais. François Chollet a donc créé un benchmark appelé ARC-AGI : il vous enseigne une mini-compétence dans la question, puis vous demande de démontrer cette mini-compétence.

En gros, il vous enseigne quelque chose et vous demande de répéter la compétence que vous venez d'apprendre. Le test mesure donc la capacité d'un modèle à apprendre dans un domaine restreint. Mais il ne mesure pas l'AGI, car il reste dans un domaine limité [dans lequel l'apprentissage ne s'applique qu'à un domaine restreint]. « Il mesure la capacité d'une IA à généraliser, mais nous ne prétendons pas qu'il s'agit d'AGI », explique la fondation.

Citation Envoyé par Greg Kamradt, président de l'ARC Prize Foundation


L'un des facteurs clés du benchmark de François Chollet est que nous testons les humains sur ces problèmes, et que l'humain moyen peut accomplir ces tâches et résoudre ces problèmes, mais que l'IA a encore beaucoup de mal à le faire. Ce qui est si intéressant, c'est que certaines IA avancées, telles que Grok, peuvent réussir n'importe quel examen de niveau universitaire ou accomplir toutes sortes de choses incroyables, mais il s'agit d'une intelligence ponctuelle. Elle n'a toujours pas le pouvoir de généralisation d'un humain. Et c'est ce que montre ce benchmark.

La fondation a testé 400 personnes sur l'ARC-AGI-2. « Nous les avons réunis dans une salle, nous leur avons donné des ordinateurs, nous avons effectué un dépistage démographique, puis nous leur avons fait passer le test. La personne moyenne a obtenu un score de 66 % pour ce test. Collectivement, cependant, les réponses agrégées de cinq à dix personnes contiennent les réponses correctes à toutes les questions de l'ARC2 », explique Greg Kamradt.

Pourquoi l'IA échoue-t-elle à un test relativement facile pour les humains ?

Selon Greg Kamradt, il y a deux raisons. Les humains sont incroyablement efficaces dans leur apprentissage, ce qui signifie qu'ils peuvent examiner un problème et, avec peut-être un ou deux exemples, acquérir la mini-compétence ou la transformation nécessaire et passer à l'action. L'algorithme qui fonctionne dans la tête d'un humain est d'un ordre de grandeur supérieur et plus efficace que ce que nous observons actuellement avec les systèmes d'IA.


Un article de recherche publié par Apple a pris d'assaut le monde de la technologie, démolissant presque complètement l'idée répandue selon laquelle les grands modèles de langage (LLM, ainsi que leur dernière variante, les LRM, grands modèles de raisonnement) sont capables de raisonner de manière fiable. « Nous n'avons trouvé aucune preuve de raisonnement formel dans les LLM », indique l'article d'Apple. Certains en sont choqués, d'autres non.

L'article démystifie les capacités surestimées de l'IA, en soulignant leurs limites en matière de raisonnement, de compréhension ou d'intelligence générale. Il ajoute que les IA de pointe comme ChatGPT et DeepSeek peuvent sembler intelligentes, mais lorsqu'ils sont confrontés à une complexité accrue, ils s'effondrent.

La tour de Hanoï est un jeu composé de trois piquets et de plusieurs disques, dans lequel vous devez déplacer tous les disques du piquet de gauche vers celui de droite, sans jamais empiler un disque plus grand sur un plus petit. Avec un peu d'entraînement, un enfant de sept ans intelligent (et patient) peut y arriver. Apple a découvert que les principaux modèles d'IA pouvaient à peine gérer sept disques, avec une précision inférieure à 80 %.

L'article d'Apple indique également que les principaux modèles sont pratiquement incapables de résoudre correctement les scénarios à huit disques. Il est vraiment embarrassant que les grands modèles de langage ne puissent pas résoudre de manière fiable le jeu de Hanoï, un classique chez les humains.

Iman Mirzadeh, coauteur de l'article, ajoute : « il ne s'agit pas seulement de résoudre le puzzle. Nous avons mené une expérience dans laquelle nous avons fourni l'algorithme de résolution au modèle, et celui-ci a encore échoué. D'après ce que nous avons pu observer de leurs réflexions, leur processus n'est ni logique ni intelligent ». Les chances que ces modèles atteignent l'AGI sont vraiment minces, malgré leur coût de développement colossal.

L'évolution des puzzles ARC depuis la création d'ARC-AGI-1 en 2019

ARC-AGI-1 a été créé par François Chollet lui-même. Il comprend environ 1 000 tâches. C'était en 2019. Il a essentiellement créé la version minimale viable afin de mesurer la généralisation, et celle-ci a tenu pendant cinq ans, car l'apprentissage profond ne pouvait absolument pas l'atteindre. Il n'en était même pas proche. Puis, les modèles de raisonnement lancés en 2024 ont montré un changement radical dans ce que les systèmes d'IA peuvent faire.

Avec ARC-AGI-2, le test est allé un peu plus loin dans ce que les humains peuvent faire et que l'IA ne peut pas faire. Cela nécessite un peu plus de planification pour chaque tâche. Ainsi, au lieu d'être résolues en 5 secondes, les tâches peuvent être accomplies par les humains en une minute ou deux. Les règles sont plus complexes et les grilles sont plus grandes, il faut donc être plus précis dans ses réponses, mais le concept reste plus ou moins le même.

La fondation a lancé une préversion pour développeurs d'ARC-AGI-3, qui s'éloigne complètement de ce format. Le nouveau format sera en fait interactif. La fondation présente plutôt ce test comme benchmark pour les agents d'IA. Greg Kamradt note : « nous sommes en train de créer 100 nouveaux jeux vidéo que nous utiliserons pour tester les humains afin de nous assurer qu'ils sont capables de les jouer, car c'est la base de notre benchmark ».

« Ensuite, nous allons intégrer des IA dans ces jeux vidéo et voir si elles sont capables de comprendre cet environnement qu'elles n'ont jamais vu auparavant. À ce jour, lors de nos tests internes, aucune IA n'a réussi à terminer ne serait-ce qu'un seul niveau d'un seul jeu », a déclaré Greg Kamradt.

Chaque « environnement », ou jeu vidéo, est un puzzle en deux dimensions basé sur des pixels. Ils sont structurés en niveaux distincts, chacun étant conçu pour enseigner une mini-compétence spécifique au joueur (humain ou IA). Pour réussir un niveau, le joueur doit démontrer sa maîtrise de cette compétence en exécutant des séquences d'actions planifiées. Le test ARC met en évidence l’écart entre les capacités humaines et celles des IA.

Conclusion

L'IA générative fait l'objet d'un battage médiatique intense, les entreprises l'intégrant partout. Mais la technologie est encore loin de tenir ses promesses et le scepticisme ne cesse grandir quant à son objectif ultime : l'AGI. Les difficultés des IA à résoudre les puzzles ARC révèlent leur manque de raisonnement abstrait et d’adaptation à des situations nouvelles. Bien sûr, les systèmes actuels réussissent des tâches structurées et avec beaucoup de données.

Cependant, les modèles rencontrent d'énormes difficultés dès qu’il faut comprendre des règles implicites ou apprendre rapidement à partir de peu d’exemples. Selon les experts, cette faculté, qui est innée chez les humains, est indispensable pour atteindre une forme d'intelligence artificielle générale.

Sources : ARC-AGI-1, ARC-AGI-2, ARC-AGI-3

Et vous ?

Quel est votre avis sur le sujet ?
Selon vous, pourquoi les puzzles ARC semblent-ils faciles pour les humains, mais difficiles pour les IA ?
Que révèle le test ARC sur les limites actuelles de l’intelligence artificielle ?
En quoi les résultats des IA sur le test ARC mettent-ils en question les promesses d’une AGI ?
Selon vous, quels types de compétences humaines restent difficiles à reproduire par l’IA ?
Que pensez-vous de l’approche du benchmark ARC‑AGI‑3 qui consiste à utiliser les jeux vidéo pour tester les IA ?

Voir aussi

Les LLM sont mauvais en inférence logique, mais excellents pour produire un « charabia fluide », et leurs capacités de raisonnement simulé sont un « mirage fragile », selon une étude

Malgré leurs fortes capacités de raisonnement inductif, les LLM ont tendance à manquer de capacités de raisonnement déductif, en particulier dans les tâches impliquant un raisonnement "contrefactuel"

L'étude d'Apple prouve que les modèles d'IA basés sur le LLM sont défectueux car ils ne peuvent pas raisonner : "Nous n'avons trouvé aucune preuve de raisonnement formel dans les modèles de langage"
Vous avez lu gratuitement 121 articles depuis plus d'un an.
Soutenez le club developpez.com en souscrivant un abonnement pour que nous puissions continuer à vous proposer des publications.

Une erreur dans cette actualité ? Signalez-nous-la !

Avatar de floyer
Membre éclairé https://www.developpez.com
Le 02/09/2025 à 20:51
Je cite : L'IA engloutit des milliards, mais ne peut pas résoudre les puzzles ARC qui ne prennent parfois que quelques secondes à un être humain,

C'est une manière assez stupide d'évaluer un investissement. Un peu comme je m'offusquais que ma visseuse DeWalt (pourtant de marque réputée), ne pouvait pas enfoncer un clou.

Lorsqu'un investissement englouti beaucoup d'argent, la seule question intéressante est de savoir si cela rapporte beaucoup en retour (et la résolution de puzzles ARC ne risque pas de rapporter beaucoup).

Dans le même état d'esprit, si le taux d'exactitude n'est "que" de 50%, cela signifie que pour les 50% restant, tout le travail est épargné, donc c'est intéressant.

Je cite : Mais la technologie est encore loin de tenir ses promesses et le scepticisme ne cesse grandir quant à son objectif ultime : l'AGI.

Une technologie (ici les LLM) n'a pas de promesses. S'il y a des promesses ou des extrapolations, ce ne peut être que par ceux qui en parle, et il me semble que les limitations de la technologie sont arrivées assez vite. Mais c'est vrai que certains discours (par exemple les apôtres du vibe-coding) extrapolent le cas d'un petit projet où les compétence de codage en informatique n'ont pas été utile et vont un peu vite pour proposer le remplacement des informaticiens (bon, en même temps, les commerciaux ne vont pas commencer à dénigrer leur produit, cela ne date pas des LLM...).
0  0