Les IA classées par QI, l'IA dépasse 100 points de QI pour la première fois, avec la sortie de Claude-3, plus intelligente que l'Américain moyen

Et les modèles GPT-4 d'OpenAI et Gemini de Google

Le 6 mars 2024 à 20:10, par Mathis Lucas

99PARTAGES

La troisième génération du grand modèle de langage (LLM) Claude publiée lundi par Anthropic continue de faire sensation. Les premiers tests révèlent que Claude 3 surpasse GPT-4 et Gemini sur différents benchmarks, mais un nouveau test va plus loin et suggère que l'IA d'Anthropic semble plus intelligente que l'Américain moyen, dont le QI est de 98. Le rapport indique que Claude 3 a obtenu un score de 104 à un test de QI basé sur Norway Mensa, contre 85 pour GPT-4 et 77 pour Gemini. Toutefois, plusieurs modèles manquent à l'appel, notamment ceux de Mistral, et la pertinence du test est remise en cause, les critiques affirmant que les problèmes sont triviaux pour l'IA.

Anthropic a dévoilé lundi une nouvelle famille de modèles d'IA, collectivement appelée la famille de modèles Claude 3. L'entreprise a lancé trois modèles de tailles différentes, chacun présentant un équilibre variable entre l'intelligence, la vitesse et le coût. Selon Anthropic, le plus grand de ses nouveaux modèles, appelé Opus, surpasse les modèles les plus avancés d'OpenAI et de Google, respectivement GPT-4 et Gemini Ultra, dans des tests mesurant les connaissances de premier cycle (MMLU), le raisonnement (GPQA) ainsi que les mathématiques de base (GSM8k - un ensemble de problèmes de mathématiques de l'école primaire).

L'enfant du milieu de la famille, Claude 3 Sonnet, serait deux fois plus rapide que le meilleur modèle précédent d'Anthropic, Claude 2.1, et possède une intelligence supérieure. Selon Anthropic, Sonnet excelle dans les tâches exigeant des réponses rapides, comme la recherche de connaissance ou l'automatisation des ventes. Enfin, Anthropic ajoute que le plus petit modèle, Claude 3 Haiku, surpasse les autres modèles de taille comparable en matière de performances, de vitesse et de coût. Il peut lire un document de recherche dense d'environ 7 500 mots avec des tableaux et des graphiques en moins de trois secondes.

En outre, Claude 3 aurait obtenu un score de 104 à un test de QI (quotient intellectuel) réalisé par un utilisateur. Ce test, dont les résultats sont controversés dans la communauté, constitue une nouvelle illustration des performances de Claude 3. À titre de comparaison, le QI d'un Américain moyen est de 98. Les résultats du test suggèrent que Claude 3 surpasse GPT-4, qui arrive à la deuxième place du classement avec un score de 85. (La variante de Claude 3 utilisée dans le cadre du test n'est pas précisée.) Claude 2 est classé troisième avec un score de 82, contre 79 pour Microsoft Copilot et 77,5 pour une version de Gemini.

Plus bas dans le classement, l'on retrouve Llama 2 de Meta qui a obtenu un score de 67, surpassant les modèles Claude 1, GPT-3 et Grok Fun qui ont obtenu chacun un score de 64. Une autre version de Grok, le chabot développé par la startup d'IA xAI d'Elon Musk, a obtenu un score plus élevé de 68,5. Le test est basé sur l'ensemble de données Norway Mensa, un challenge en ligne qui, selon ces auteurs, donne une indication des capacités cognitives générales, représentées par un score de QI compris entre 85 et 145, où 100 est la moyenne de la population. Il comprend 35 problèmes qui doivent être résolus en 25 minutes.

Tous les problèmes sont constitués de motifs visuels logiques, avec une difficulté progressive. Selon les auteurs l'ensemble de données, les problèmes ne nécessitent ni connaissance spécialisée ni compétences mathématiques. Chaque réponse correcte donne un point et tous les éléments sont pondérés de manière égale. Dans le cadre du test sur les modèles d'IA, l'auteur a quelque peu modifié le fonctionnement de Norway Mensa. (L'image ci-dessus présente les résultats du test.) Expliquant la méthode utilisée pour obtenir ces résultats, l'auteur a écrit :

Chaque IA a passé le test deux fois, afin de réduire la variance. Le terme "questions correctes" désigne le nombre moyen de questions correctes, sur deux administrations du test.

Bien que Norway Mensa refuse d'attribuer des scores inférieurs à 85, j'ai remarqué que chaque question valait 3 points de QI dans cette fourchette. J'ai donc utilisé ce chiffre pour estimer les scores inférieurs à 85. Ce n'est pas assez conforme aux règles pour Mensa Norvège, mais je pense que cela vaut la peine d'être calculé.

Il faut comprendre que le fait de deviner au hasard donne un score de 63,5 - ce score doit être considéré comme la base de référence, à laquelle une IA peut s'attendre simplement parce qu'elle se rend compte qu'on lui demande de choisir une lettre, et qu'elle en crache une.

Si vous préférez une mesure plus concrète, regardez plutôt la colonne "questions correctes" ou la dernière colonne, qui donne la probabilité que l'IA ait obtenu de meilleurs résultats qu'un joueur aléatoire (que j'ai calculée en simulant un million de joueurs aléatoires qui ont passé le test ; les chiffres de la colonne indiquent le pourcentage de simulations que l'IA a battu).

Cependant, l'on peut exprimer de nombreuses réserves à l'égard de ce test. Tout d'abord, les tests de QI ne font pas l'humanité auprès des experts et ils n'ont pas été développés pour être passés par des machines, encore moins des systèmes d'IA de dernière génération. Mais l'auteur écrit : « j'ai établi ce classement parce que je le trouve fascinant. Il m'aide à savoir quelles sont les IA qu'il serait le plus productif d'essayer. Il m'aide également à réfléchir à la capacité de l'IA et au risque existentiel de l'IA ». L'autre chose, c'est qu'il est possible que certaines questions de ce test de QI figurent dans les données de formation du modèle.

Extrapolant les résultats, l'auteur suggère qu'à l'avenir Claude 4 et Claude 5 pourraient obtenir au test de QI des scores de 120 et 140, respectivement. « Il est clair que Claude 3 est l'IA la plus intelligente, mais avant cela, ChatGPT était le leader incontesté. Lorsqu’OpenAI publiera la prochaine version de ChatGPT, en se basant sur la différence de capacité de test entre ChatGPT-3.5 et ChatGPT-4, je m'attends à ce qu'elle ait un QI d'environ 106 ». Bien que ce test de QI puisse sembler intéressant, il est largement controversé dans la communauté et certains remettent en cause la pertinence de l'évaluation du QI des modèles d'IA.

« Les tests de QI pour les modèles semblent quelque peu défectueux. Par exemple, la plupart des tests de QI (si ce n'est tous) testent la mémoire de travail. Cela signifie que l'on vous donnera une chaîne de caractères et de chiffres, et que vous devrez les réitérer dans un certain ordre. C'est tout à fait trivial pour une machine, et cela donnera un score maximal très faussé. Il en va de même pour la détection des différences. Une tâche typique consiste à montrer deux images différentes et à trouver la différence entre elles. Là également, il s'agit d'une tâche totalement triviale pour une machine », lit-on dans les commentaires.

Un autre critique note : « il ne s'agit pas d'un article révisé par des pairs, mais d'un type qui s'amuse avec des tests de QI. Les tests de QI sont déjà suffisamment controversés par les experts qui les utilisent, sans parler des journalistes aléatoires et non formés. En parcourant l'article, il y a beaucoup de signaux d'alarme dans les méthodes utilisées par l'auteur. Le fait de n'effectuer les tests que deux fois par modèle laisse beaucoup de place à la variance, et ses hypothèses sur les scores de QI inférieurs à 85 ne semblent pas non plus reposer sur grand-chose ». En outre, le test suggère que nous nous rapprochons de l'AGI.

L'auteur prédit du test prédit en effet qu'à l'avenir, il pourrait y avoir un modèle...

La fin de cet article est réservée aux abonnés. Soutenez le Club Developpez.com en prenant un abonnement pour que nous puissions continuer à vous proposer des publications.

Une erreur dans cette actualité ? Signalez-nous-la !

Votre nom : Votre e-mail :

Décrivez l'erreur que vous souhaitez porter à notre connaissance :

Identifiez-vous

Créer un compte

Les IA classées par QI, l'IA dépasse 100 points de QI pour la première fois, avec la sortie de Claude-3, plus intelligente que l'Américain moyen

Et les modèles GPT-4 d'OpenAI et Gemini de Google

Identifiant
Mot de passe

Mot de passe oublié ?

Identifiez-vous

Créer un compte

Les IA classées par QI, l'IA dépasse 100 points de QI pour la première fois, avec la sortie de Claude-3, plus intelligente que l'Américain moyen Et les modèles GPT-4 d'OpenAI et Gemini de Google

Les IA classées par QI, l'IA dépasse 100 points de QI pour la première fois, avec la sortie de Claude-3, plus intelligente que l'Américain moyen

Et les modèles GPT-4 d'OpenAI et Gemini de Google