
elle reste dépourvue de la capacité de généralisation d’un humain
L'excitation des premiers jours à l'égard de l'IA générative laisse progressivement place à une désillusion. Les progrès des grands modèles de langage (LLM) ont ralenti, certains experts estimant que la technologie a atteint un plafond. Une étude récente a révélé que jusqu'à 95 % pour des projets pilotes d'IA générative en entreprise échouent. À ce jour, l'IA peine à résoudre les puzzles ARC qui ne prennent que quelques secondes à un être humain. Malgré les centaines de milliards de dollars déversés dans l'IA générative en trois ans, la technologie est encore loin de tenir ces promesses. Au lieu de cela, l'IA suscite des frustrations et des vagues de protestation.
Il existe plusieurs façons de tester l'intelligence d'un système : fluidité conversationnelle, compréhension écrite ou physique extrêmement complexe. Mais certains des tests les plus susceptibles de déconcerter les IA sont ceux que les humains trouvent relativement faciles, voire divertissants. Bien que les IA s'améliorent dans des tâches complexes, cela ne signifie pas pour autant qu'elles sont sur le point d'atteindre l'intelligence artificielle générale (AGI).
En 2019, François Chollet a créé l’Abstraction and Reasoning Corpus (ARC), un ensemble de puzzles destinés à tester la capacité des IA à généraliser à partir de très peu d’exemples. Ces puzzles demandent d’identifier une règle implicite à partir de quelques exemples et de l’appliquer à un nouveau cas. Si les humains résolvent ces exercices parfois presque instantanément, les IA actuelles échouent encore fréquemment, ce qui suscite plusieurs questions.
L'ARC est devenu la base de l'ARC Prize Foundation, un organisme à but non lucratif qui développe le test, désormais une référence utilisée par tous les principaux modèles du secteur. Le groupe développe de nouveaux tests et utilise régulièrement deux d'entre eux (ARC-AGI-1 et son successeur plus difficile, ARC-AGI-2). Fin août, le groupe a lancé ARC-AGI-3, spécialement conçu pour tester les agents d'IA, et qui consiste à leur faire jouer à des jeux vidéo.
Le test ARC a été développé par le chercheur en IA François Chollet en 2019. Greg Kamradt, président de l'ARC Prize Foundation, chercheur en IA et entrepreneur, a expliqué comment ces tests évaluent les IA, ce qu'ils nous apprennent sur le potentiel de l'AGI et pourquoi ils sont souvent difficiles pour les modèles de langage, même si de nombreux humains ont tendance à les trouver relativement faciles. Voici quelques éléments de compréhension.
Quelle définition de l'intelligence est mesurée par le test ARC-AGI-1 ?
L'intelligence est votre capacité à apprendre de nouvelles choses. Nous savons déjà que l'IA peut gagner aux échecs. Nous savons qu'elle peut gagner au Go. Mais ces modèles ne peuvent pas généraliser à de nouveaux domaines ; ils ne peuvent pas apprendre l'anglais. François Chollet a donc créé un benchmark appelé ARC-AGI : il vous enseigne une mini-compétence dans la question, puis vous demande de démontrer cette mini-compétence.
En gros, il vous enseigne quelque chose et vous demande de répéter la compétence que vous venez d'apprendre. Le test mesure donc la capacité d'un modèle à apprendre dans un domaine restreint. Mais il ne mesure pas l'AGI, car il reste dans un domaine limité [dans lequel l'apprentissage ne s'applique qu'à un domaine restreint]. « Il mesure la capacité d'une IA à généraliser, mais nous ne prétendons pas qu'il s'agit d'AGI », explique la fondation.

Pourquoi l'IA échoue-t-elle à un test relativement facile pour les humains ?
Selon Greg Kamradt, il y a deux raisons. Les humains sont incroyablement efficaces dans leur apprentissage, ce qui signifie qu'ils peuvent examiner un problème et, avec peut-être un ou deux exemples, acquérir la mini-compétence ou la transformation nécessaire et passer à l'action. L'algorithme qui fonctionne dans la tête d'un humain est d'un ordre de grandeur supérieur et plus efficace que ce que nous observons actuellement avec les systèmes d'IA.
Un article de recherche publié par Apple a pris d'assaut le monde de la technologie, démolissant presque complètement l'idée répandue selon laquelle les grands modèles de langage (LLM, ainsi que leur dernière variante, les LRM, grands modèles de raisonnement) sont capables de raisonner de manière fiable. « Nous n'avons trouvé aucune preuve de raisonnement formel dans les LLM », indique l'article d'Apple. Certains en sont choqués, d'autres non.
L'article démystifie les capacités surestimées de l'IA, en soulignant leurs limites en matière de raisonnement, de compréhension ou d'intelligence générale. Il ajoute que les IA de pointe comme ChatGPT et DeepSeek peuvent sembler intelligentes, mais lorsqu'ils sont confrontés à une complexité accrue, ils s'effondrent.
La tour de Hanoï est un jeu composé de trois piquets et de plusieurs disques, dans lequel vous devez déplacer tous les disques du piquet de gauche vers celui de droite, sans jamais empiler un disque plus grand sur un plus petit. Avec un peu d'entraînement, un enfant de sept ans intelligent (et patient) peut y arriver. Apple a découvert que les principaux modèles d'IA pouvaient à peine gérer sept disques, avec une précision inférieure à 80 %.
L'article d'Apple indique également que les principaux modèles sont pratiquement incapables de résoudre correctement les scénarios à huit disques. Il est vraiment embarrassant que les grands modèles de langage ne puissent pas résoudre de manière fiable le jeu de Hanoï, un classique chez les humains.
Iman Mirzadeh, coauteur de l'article, ajoute : « il ne s'agit pas seulement de résoudre le puzzle. Nous avons mené une expérience dans laquelle nous avons fourni l'algorithme de résolution au modèle, et celui-ci a encore échoué. D'après ce que nous avons pu observer de leurs réflexions, leur processus n'est ni logique ni intelligent ». Les chances que ces modèles atteignent l'AGI sont vraiment minces, malgré leur coût de développement colossal.
L'évolution des puzzles ARC depuis la création d'ARC-AGI-1 en 2019
ARC-AGI-1 a été créé par François Chollet lui-même. Il comprend environ 1 000 tâches. C'était en 2019. Il a essentiellement créé la version minimale viable afin de mesurer la généralisation, et celle-ci a tenu pendant cinq ans, car l'apprentissage profond ne pouvait absolument pas l'atteindre. Il n'en était même pas proche. Puis, les modèles de raisonnement lancés en 2024 ont montré un changement radical dans ce que les systèmes d'IA peuvent faire.
Avec ARC-AGI-2, le test est allé un peu plus loin dans ce que les humains peuvent faire et que l'IA ne peut pas faire. Cela nécessite un peu plus de planification pour chaque tâche. Ainsi, au lieu d'être résolues en 5 secondes, les tâches peuvent être accomplies par les humains en une minute ou deux. Les règles sont plus complexes et les grilles sont plus grandes, il faut donc être plus précis dans ses réponses, mais le concept reste plus ou moins le même.
La fondation a lancé une préversion pour développeurs d'ARC-AGI-3, qui s'éloigne complètement de ce format. Le nouveau format sera en fait interactif. La fondation présente plutôt ce test comme benchmark pour les agents d'IA. Greg Kamradt note : « nous sommes en train de créer 100 nouveaux jeux vidéo que nous utiliserons pour tester les humains afin de nous assurer qu'ils sont capables de les jouer, car c'est la base de notre benchmark ».
« Ensuite, nous allons intégrer des IA dans ces jeux vidéo et voir si elles sont capables de comprendre cet environnement qu'elles n'ont jamais vu auparavant. À ce jour, lors de nos tests internes, aucune IA n'a réussi à terminer ne serait-ce qu'un seul niveau d'un seul jeu », a déclaré Greg Kamradt.
Chaque « environnement », ou jeu vidéo, est un puzzle en deux dimensions basé sur des pixels. Ils sont structurés en niveaux distincts, chacun étant conçu pour enseigner une mini-compétence spécifique au joueur (humain ou IA). Pour réussir un niveau, le joueur doit démontrer sa maîtrise de cette compétence en exécutant des séquences d'actions planifiées. Le test ARC met en évidence l’écart entre les capacités humaines et celles des IA.
Conclusion
L'IA générative fait l'objet d'un battage médiatique intense, les entreprises l'intégrant partout. Mais la technologie est encore loin de tenir ses promesses et le scepticisme ne cesse grandir quant à son objectif ultime : l'AGI. Les difficultés des IA à résoudre les puzzles ARC révèlent leur manque de raisonnement abstrait et d’adaptation à des situations nouvelles. Bien sûr, les systèmes actuels réussissent des tâches structurées et avec beaucoup de données.
Cependant, les modèles rencontrent d'énormes difficultés dès qu’il faut comprendre des règles implicites ou apprendre rapidement à partir de peu d’exemples. Selon les experts, cette faculté, qui est innée chez les humains, est indispensable pour atteindre une forme d'intelligence artificielle générale.
Sources : ARC-AGI-1, ARC-AGI-2, ARC-AGI-3
Et vous ?






Voir aussi



Vous avez lu gratuitement 121 articles depuis plus d'un an.
Soutenez le club developpez.com en souscrivant un abonnement pour que nous puissions continuer à vous proposer des publications.
Soutenez le club developpez.com en souscrivant un abonnement pour que nous puissions continuer à vous proposer des publications.