Killed by LLM : voici les benchmarks qui ont défini et ont été résolus par les progrès de l'IA, y compris le test de Turing

Comment l'IA devient plus intelligente que les humains, devons-nous nous inquiéter ?

Le 7 janvier 2025 à 23:35, par Jade Emy

63PARTAGES

Killed by LLM : voici les benchmarks qui ont défini et ont été résolus par les progrès de l'IA, y compris le test de Turing, comment l'IA devient plus intelligente que les humains, devons-nous nous inquiéter ?

Le site web Killed by LLM a partagé une liste des benchmarks "vaincus" par les LLM, révélant les progrès fait par l'IA. La liste confirme le statut de GPT-4 comme le déclencheur du boom de l'IA. Elle montre également que le Test de Turing est le benchmark le plus vieux, mais également le plus controversé.

GPT-4, le célèbre modèle de langage d'OpenAI, est réputé à avoir réussi le test de Turing. Pour rappel, le "test de Turing" permet de déterminer si la capacité d'une machine à faire preuve d'intelligence est indiscernable de celle d'un être humain. Pour qu'une machine réussisse le test de Turing, elle doit être capable de parler à quelqu'un et de lui faire croire qu'elle est humaine. Le test de Turing fait partie des benchmarks (tests d'évaluation ou de référence) qui permettent de déterminer les progrès de l'IA.

Depuis le lancement de GPT-4, de nombreux grands modèles de langage (LLM) sont sortis, et d'autres benchmarks ont été résolus et réussi par l'intelligence artificielle (IA). Le site web Killed by LLM a partagé une liste des benchmarks "vaincus" par les LLM. Le terme "vaincu" signifie qu'un benchmark ne peut plus mesurer la frontière. Bien que ces repères soient toujours des outils utiles et précieux, ils ne sont plus en mesure de contribuer de manière significative à la question suivante : "L'IA peut-elle faire ceci ou cela ?"

Voici la liste proposée par Killed by LLM au mois de janvier 2025 :

ARC-AGI (2019 - 2024), Raisonnement : Résolu il y a 1 mois, un défi de raisonnement abstrait consistant en des tâches de complétion de motifs visuels. Chaque tâche présente une séquence de motifs visuels abstraits et nécessite de sélectionner la bonne réponse. Créé par François Chollet dans le cadre d'une enquête plus large sur la mesure de l'intelligence. Il a été créé il y a 5 ans et 1 mois.

Vaincu par : "o3"
MATH (2021 - 2024), Mathématiques : Résolu il y a 4 mois, un ensemble de données de 12 000 problèmes mathématiques de concours difficiles provenant de l'AMC, de l'AIME et d'autres concours mathématiques. Les problèmes vont du niveau pré-algèbre au niveau olympique et requièrent un raisonnement complexe en plusieurs étapes. Chaque problème a une solution détaillée qui teste les capacités de raisonnement mathématique. Il a été créé il y a 3 ans et 6 mois.

Vaincu par : "o1"
BIG-Bench-Hard (2022 - 2024), Multi-tâche : Résolu il y a 7 mois, une suite de 23 tâches difficiles de BIG-Bench où les modèles de langage ont initialement réalisé des performances inférieures au niveau humain moyen. Sélectionné pour mesurer les progrès sur des capacités particulièrement difficiles. Il a été créé il y a 1 an et 8 mois.

Vaincu par : Sonnet 3.5
HumanEval (2021 - 2024), Codage : Résolu il y a 8 mois, une collection de 164 problèmes de programmation Python conçus pour tester les capacités de codage des modèles de langage. Chaque problème comprend une signature de fonction, une docstring et des tests unitaires. Les modèles doivent générer des implémentations de fonctions complètes et correctes qui passent tous les tests. Il a été créé il y a 2 ans et 10 mois.

Vaincu par : GPT-4o
IFEval (2023 - 2024), Suivi de l'instruction : Résolu il y a 10 mois, une suite d'évaluation complète testant les capacités de suivi des instructions à travers le codage, les mathématiques, les jeux de rôle et d'autres tâches. Mesure la capacité à gérer des instructions complexes en plusieurs étapes et des contraintes. Cette évaluation a été réalisée il y a 4 mois.

Vaincu par : LLama 3.3 70B
GSM8K (2021 - 2023), Mathématiques : Résolu il y a 1 an, Une collection de 8 500 problèmes de mots mathématiques d'école primaire nécessitant des solutions étape par étape. Les problèmes testent à la fois le calcul numérique et la compréhension du langage naturel à travers un raisonnement mathématique en plusieurs étapes. Il a été créé il y a 2 ans et 1 mois.

Vaincu par : GPT-4
Test de Turing (1950-2023), Conversation : Résolu il y a 1 an, le test original d'IA proposé par Alan Turing en 1950. Dans ce "jeu d'imitation", un ordinateur doit convaincre des juges humains qu'il est humain par le biais d'une conversation naturelle. Ce test a suscité des décennies de débats sur l'intelligence et la conscience des machines. Il a été créé il y a 73 ans et 5 mois.

Vaincu par GPT-4
ARC (AI2)(2018 - 2023), Raisonnement : Résolu il y a 1 an, AI2 Reasoning Challenge (ARC) - Une collection de tâches de raisonnement à choix multiples de niveau scolaire testant la déduction logique, le raisonnement spatial et le raisonnement temporel. Chaque tâche requiert l'application de capacités de raisonnement abstraites pour résoudre des problèmes à plusieurs étapes. Il a été créé il y a 5 ans.

Vaincu par : GPT-4
HellaSwag (2019 - 2023), Sens commun : Résolu il y a 1 an, Un ensemble de données difficile de questions à choix multiples sur des scénarios quotidiens. Il utilise le filtrage contradictoire pour tester la capacité des modèles à comprendre et à raisonner sur les situations du monde réel et leurs résultats probables. Il a été créé il y a 3 ans et 10 mois.

Vaincu par : GPT-4
MMLU(2020 - 2023), Connaissances : Résolu il y a 1 an, Un benchmark complet couvrant 57 sujets dont les mathématiques, l'histoire, le droit, l'informatique, et plus encore. Les questions sont tirées de sources réelles telles que des examens professionnels afin de tester à la fois l'étendue et la profondeur des connaissances dans divers domaines académiques. Cette évaluation a été créée il y a 2 ans et 6 mois.

Vaincu par : GPT-4
WinoGrande(2019 - 2023), Sens commun : Résolu il y a 1 an, Une version améliorée de WSC avec 44 000 problèmes testant le raisonnement de bon sens à travers la résolution des pronoms. Utilise un filtrage contradictoire pour s'assurer que les problèmes requièrent une compréhension du monde réel. Il a été créé il y a 3 ans et 8 mois.

Vaincu par : GPT-4

Fait intéressant, cette liste révèle que le "test de Turing" est le benchmark le plus ancien qui ai existé. Pourtant, ce test est très critiqué par certains chercheurs en IA. En 2020, un professeur de l’Université de Reading a déclaré : "Dans le domaine de l’intelligence artificielle, il n’y a pas de jalon plus emblématique et controversé que le test de Turing." Le scientifique en chef d'Alexa avait également déclaré : "Le test de Turing est obsolète. Il est temps de créer un nouveau baromètre pour l'IA".

Plus récemment, c'est Mustafa Suleyman, cofondateur de DeepMind, le célèbre laboratoire d’IA racheté par Google, qui a critiqué le "test de Turing". Il a qualifié le test de "dépassé" et "ne reflète pas la véritable intelligence des chatbots modernes." Il a proposé un test "plus moderne" où une IA est évaluée non seulement par ce qu'elle dit, mais aussi par ce qu'elle fait.

Dans tous les cas, cette liste montre la course effrénée à l'IA depuis son boom en 2023, engendré par GPT-4. C'est pourquoi de nombreux observateurs craignent que l'IA ne devienne hors de contrôle. Ce n'est pas la première fois que de telles craintes ont été exprimées sur l'IA. En 2019, Elon Musk avertissait que "l'IA est bien plus dangereuse que l'arme nucléaire". Alors que Bill Gates avait estimé que l'IA est à la fois porteuse d'espoir et dangereuse.

Il sera maintenant intéressant de voir quel sera le prochain progrès de l'IA et dans quelle direction elle se dirige.

Source : "Killed by LLM"

Et vous ?

Pensez-vous que cette liste est crédible ou pertinente ?

Quel est votre avis sur le sujet ?

Voir aussi :

Les limites et perspectives des benchmarks pour évaluer les performances de l'IA par rapport aux performances humaines

Les principaux systèmes d'IA résolvent moins de 2 % des problèmes d'un nouveau test de référence en mathématiques avancées, ce qui révèle les limites importantes de leurs capacités de raisonnement

Trolldi : « Will Smith mangeant des spaghettis » est désormais un benchmark pour l'IA. Lorsqu'un nouveau générateur de vidéos par IA est publié, quelqu'un l'utilise pour réaliser cette vidéo de l'acteur

2023, l'année de l'IA ? L'année a été marquée par l'émergence de l'IA générative, une explosion des investissements dans le domaine et l'accélération dans les législations

Vous avez lu gratuitement 531 articles depuis plus d'un an.
Soutenez le club developpez.com en souscrivant un abonnement pour que nous puissions continuer à vous proposer des publications.

Une erreur dans cette actualité ? Signalez-nous-la !

Votre nom : Votre e-mail :

Décrivez l'erreur que vous souhaitez porter à notre connaissance :

Identifiez-vous

Créer un compte

Killed by LLM : voici les benchmarks qui ont défini et ont été résolus par les progrès de l'IA, y compris le test de Turing

Comment l'IA devient plus intelligente que les humains, devons-nous nous inquiéter ?

Identifiant
Mot de passe

Mot de passe oublié ?

Identifiez-vous

Créer un compte

Killed by LLM : voici les benchmarks qui ont défini et ont été résolus par les progrès de l'IA, y compris le test de Turing Comment l'IA devient plus intelligente que les humains, devons-nous nous inquiéter ?

Killed by LLM : voici les benchmarks qui ont défini et ont été résolus par les progrès de l'IA, y compris le test de Turing

Comment l'IA devient plus intelligente que les humains, devons-nous nous inquiéter ?