L'IA engloutit des milliards, mais ne peut pas résoudre les puzzles ARC qui ne prennent parfois que quelques secondes à un être humain,

Elle reste dépourvue de la capacité de généralisation d'un humain

Le 2 septembre 2025 à 18:26, par Mathis Lucas

100PARTAGES

L'excitation des premiers jours à l'égard de l'IA générative laisse progressivement place à une désillusion. Les progrès des grands modèles de langage (LLM) ont ralenti, certains experts estimant que la technologie a atteint un plafond. Une étude récente a révélé que jusqu'à 95 % pour des projets pilotes d'IA générative en entreprise échouent. À ce jour, l'IA peine à résoudre les puzzles ARC qui ne prennent que quelques secondes à un être humain. Malgré les centaines de milliards de dollars déversés dans l'IA générative en trois ans, la technologie est encore loin de tenir ces promesses. Au lieu de cela, l'IA suscite des frustrations et des vagues de protestation.

Il existe plusieurs façons de tester l'intelligence d'un système : fluidité conversationnelle, compréhension écrite ou physique extrêmement complexe. Mais certains des tests les plus susceptibles de déconcerter les IA sont ceux que les humains trouvent relativement faciles, voire divertissants. Bien que les IA s'améliorent dans des tâches complexes, cela ne signifie pas pour autant qu'elles sont sur le point d'atteindre l'intelligence artificielle générale (AGI).

En 2019, François Chollet a créé l’Abstraction and Reasoning Corpus (ARC), un ensemble de puzzles destinés à tester la capacité des IA à généraliser à partir de très peu d’exemples. Ces puzzles demandent d’identifier une règle implicite à partir de quelques exemples et de l’appliquer à un nouveau cas. Si les humains résolvent ces exercices parfois presque instantanément, les IA actuelles échouent encore fréquemment, ce qui suscite plusieurs questions.

L'ARC est devenu la base de l'ARC Prize Foundation, un organisme à but non lucratif qui développe le test, désormais une référence utilisée par tous les principaux modèles du secteur. Le groupe développe de nouveaux tests et utilise régulièrement deux d'entre eux (ARC-AGI-1 et son successeur plus difficile, ARC-AGI-2). Fin août, le groupe a lancé ARC-AGI-3, spécialement conçu pour tester les agents d'IA, et qui consiste à leur faire jouer à des jeux vidéo.

Le test ARC a été développé par le chercheur en IA François Chollet en 2019. Greg Kamradt, président de l'ARC Prize Foundation, chercheur en IA et entrepreneur, a expliqué comment ces tests évaluent les IA, ce qu'ils nous apprennent sur le potentiel de l'AGI et pourquoi ils sont souvent difficiles pour les modèles de langage, même si de nombreux humains ont tendance à les trouver relativement faciles. Voici quelques éléments de compréhension.

Quelle définition de l'intelligence est mesurée par le test ARC-AGI-1 ?

L'intelligence est votre capacité à apprendre de nouvelles choses. Nous savons déjà que l'IA peut gagner aux échecs. Nous savons qu'elle peut gagner au Go. Mais ces modèles ne peuvent pas généraliser à de nouveaux domaines ; ils ne peuvent pas apprendre l'anglais. François Chollet a donc créé un benchmark appelé ARC-AGI : il vous enseigne une mini-compétence dans la question, puis vous demande de démontrer cette mini-compétence.

En gros, il vous enseigne quelque chose et vous demande de répéter la compétence que vous venez d'apprendre. Le test mesure donc la capacité d'un modèle à apprendre dans un domaine restreint. Mais il ne mesure pas l'AGI, car il reste dans un domaine limité [dans lequel l'apprentissage ne s'applique qu'à un domaine restreint]. « Il mesure la capacité d'une IA à généraliser, mais nous ne prétendons pas qu'il s'agit d'AGI », explique la fondation.

Envoyé par Greg Kamradt, président de l'ARC Prize Foundation

L'un des facteurs clés du benchmark de François Chollet est que nous testons les humains sur ces problèmes, et que l'humain moyen peut accomplir ces tâches et résoudre ces problèmes, mais que l'IA a encore beaucoup de mal à le faire. Ce qui est si intéressant, c'est que certaines IA avancées, telles que Grok, peuvent réussir n'importe quel examen de niveau universitaire ou accomplir toutes sortes de choses incroyables, mais il s'agit d'une intelligence ponctuelle. Elle n'a toujours pas le pouvoir de généralisation d'un humain. Et c'est ce que montre ce benchmark.

La fondation a testé 400 personnes sur l'ARC-AGI-2. « Nous les avons réunis dans une salle, nous leur avons donné des ordinateurs, nous avons effectué un dépistage démographique, puis nous leur avons fait passer le test. La personne moyenne a obtenu un score de 66 % pour ce test. Collectivement, cependant, les réponses agrégées de cinq à dix personnes contiennent les réponses correctes à toutes les questions de l'ARC2 », explique Greg Kamradt.

Pourquoi l'IA échoue-t-elle à un test relativement facile pour les humains ?

Selon Greg Kamradt, il y a deux raisons. Les humains sont incroyablement efficaces dans leur apprentissage, ce qui signifie qu'ils peuvent examiner un problème et, avec peut-être un ou deux exemples, acquérir la mini-compétence ou la transformation nécessaire et passer à l'action. L'algorithme qui fonctionne dans la tête d'un humain est d'un ordre de grandeur supérieur et plus efficace que ce que nous observons actuellement avec les systèmes d'IA.

Un article de recherche publié par Apple a pris d'assaut le monde de la technologie, démolissant presque complètement l'idée répandue selon laquelle les grands modèles de langage (LLM, ainsi que leur dernière variante, les LRM, grands modèles de raisonnement) sont capables de raisonner de manière fiable. « Nous n'avons trouvé aucune preuve de raisonnement formel dans les LLM », indique l'article d'Apple. Certains en sont choqués, d'autres non.

L'article démystifie les capacités surestimées de l'IA, en soulignant leurs limites en matière de raisonnement, de compréhension ou d'intelligence générale. Il ajoute que les IA de pointe comme ChatGPT et DeepSeek peuvent sembler intelligentes, mais lorsqu'ils sont confrontés à une complexité accrue, ils s'effondrent.

La tour de Hanoï est un jeu composé de trois piquets et de plusieurs disques, dans lequel vous devez déplacer tous les disques du piquet de gauche vers celui de droite, sans jamais empiler un disque plus grand sur un plus petit. Avec un peu d'entraînement, un enfant de sept ans intelligent (et patient) peut y arriver. Apple a découvert que les principaux modèles d'IA pouvaient à peine gérer sept disques, avec une précision inférieure à 80 %.

L'article d'Apple indique également que les principaux modèles sont pratiquement incapables de résoudre correctement les scénarios à huit disques. Il est vraiment embarrassant que les grands modèles de langage ne puissent pas résoudre de manière fiable le jeu de Hanoï, un classique chez les humains.

Iman Mirzadeh, coauteur de l'article, ajoute : « il ne s'agit pas seulement de résoudre le puzzle. Nous avons mené une expérience dans laquelle nous avons fourni l'algorithme de résolution au modèle, et celui-ci a encore échoué. D'après ce que nous avons pu observer de leurs réflexions, leur processus n'est ni logique ni intelligent ». Les chances que ces modèles atteignent l'AGI sont vraiment minces, malgré leur coût de développement colossal.

L'évolution des puzzles ARC depuis la création d'ARC-AGI-1 en 2019

ARC-AGI-1 a été créé par François Chollet lui-même. Il comprend environ 1 000 tâches. C'était en 2019. Il a essentiellement créé la version minimale viable afin de mesurer la généralisation, et celle-ci a tenu pendant cinq ans, car l'apprentissage profond ne pouvait absolument pas l'atteindre. Il n'en était même pas proche. Puis, les modèles de raisonnement lancés en 2024 ont montré un changement radical dans ce que les systèmes d'IA peuvent faire.

Avec ARC-AGI-2, le test est allé un peu plus loin dans ce que les humains peuvent faire et que l'IA ne peut pas faire. Cela nécessite un peu plus de planification pour chaque tâche. Ainsi, au lieu d'être résolues en 5 secondes, les tâches peuvent être accomplies par les humains en une minute ou deux. Les règles sont plus complexes et les grilles sont plus grandes, il faut donc être plus précis dans ses réponses, mais le concept reste plus ou moins le même.

La fondation a lancé une préversion pour...

La fin de cet article est réservée aux abonnés. Soutenez le Club Developpez.com en prenant un abonnement pour que nous puissions continuer à vous proposer des publications.

Une erreur dans cette actualité ? Signalez-nous-la !

Votre nom : Votre e-mail :

Décrivez l'erreur que vous souhaitez porter à notre connaissance :

Identifiez-vous

Créer un compte

L'IA engloutit des milliards, mais ne peut pas résoudre les puzzles ARC qui ne prennent parfois que quelques secondes à un être humain,

Elle reste dépourvue de la capacité de généralisation d'un humain

Identifiant
Mot de passe

Mot de passe oublié ?

Identifiez-vous

Créer un compte

L'IA engloutit des milliards, mais ne peut pas résoudre les puzzles ARC qui ne prennent parfois que quelques secondes à un être humain, Elle reste dépourvue de la capacité de généralisation d'un humain

L'IA engloutit des milliards, mais ne peut pas résoudre les puzzles ARC qui ne prennent parfois que quelques secondes à un être humain,

Elle reste dépourvue de la capacité de généralisation d'un humain