Les IA classées par QI, l'IA dépasse 100 points de QI pour la première fois, avec la sortie de Claude-3, plus intelligente que l'Américain moyen

Et les modèles GPT-4 d'OpenAI et Gemini de Google

Le 6 mars 2024 à 20:10, par Mathis Lucas

184PARTAGES

La troisième génération du grand modèle de langage (LLM) Claude publiée lundi par Anthropic continue de faire sensation. Les premiers tests révèlent que Claude 3 surpasse GPT-4 et Gemini sur différents benchmarks, mais un nouveau test va plus loin et suggère que l'IA d'Anthropic semble plus intelligente que l'Américain moyen, dont le QI est de 98. Le rapport indique que Claude 3 a obtenu un score de 104 à un test de QI basé sur Norway Mensa, contre 85 pour GPT-4 et 77 pour Gemini. Toutefois, plusieurs modèles manquent à l'appel, notamment ceux de Mistral, et la pertinence du test est remise en cause, les critiques affirmant que les problèmes sont triviaux pour l'IA.

Anthropic a dévoilé lundi une nouvelle famille de modèles d'IA, collectivement appelée la famille de modèles Claude 3. L'entreprise a lancé trois modèles de tailles différentes, chacun présentant un équilibre variable entre l'intelligence, la vitesse et le coût. Selon Anthropic, le plus grand de ses nouveaux modèles, appelé Opus, surpasse les modèles les plus avancés d'OpenAI et de Google, respectivement GPT-4 et Gemini Ultra, dans des tests mesurant les connaissances de premier cycle (MMLU), le raisonnement (GPQA) ainsi que les mathématiques de base (GSM8k - un ensemble de problèmes de mathématiques de l'école primaire).

L'enfant du milieu de la famille, Claude 3 Sonnet, serait deux fois plus rapide que le meilleur modèle précédent d'Anthropic, Claude 2.1, et possède une intelligence supérieure. Selon Anthropic, Sonnet excelle dans les tâches exigeant des réponses rapides, comme la recherche de connaissance ou l'automatisation des ventes. Enfin, Anthropic ajoute que le plus petit modèle, Claude 3 Haiku, surpasse les autres modèles de taille comparable en matière de performances, de vitesse et de coût. Il peut lire un document de recherche dense d'environ 7 500 mots avec des tableaux et des graphiques en moins de trois secondes.

En outre, Claude 3 aurait obtenu un score de 104 à un test de QI (quotient intellectuel) réalisé par un utilisateur. Ce test, dont les résultats sont controversés dans la communauté, constitue une nouvelle illustration des performances de Claude 3. À titre de comparaison, le QI d'un Américain moyen est de 98. Les résultats du test suggèrent que Claude 3 surpasse GPT-4, qui arrive à la deuxième place du classement avec un score de 85. (La variante de Claude 3 utilisée dans le cadre du test n'est pas précisée.) Claude 2 est classé troisième avec un score de 82, contre 79 pour Microsoft Copilot et 77,5 pour une version de Gemini.

Plus bas dans le classement, l'on retrouve Llama 2 de Meta qui a obtenu un score de 67, surpassant les modèles Claude 1, GPT-3 et Grok Fun qui ont obtenu chacun un score de 64. Une autre version de Grok, le chabot développé par la startup d'IA xAI d'Elon Musk, a obtenu un score plus élevé de 68,5. Le test est basé sur l'ensemble de données Norway Mensa, un challenge en ligne qui, selon ces auteurs, donne une indication des capacités cognitives générales, représentées par un score de QI compris entre 85 et 145, où 100 est la moyenne de la population. Il comprend 35 problèmes qui doivent être résolus en 25 minutes.

Tous les problèmes sont constitués de motifs visuels logiques, avec une difficulté progressive. Selon les auteurs l'ensemble de données, les problèmes ne nécessitent ni connaissance spécialisée ni compétences mathématiques. Chaque réponse correcte donne un point et tous les éléments sont pondérés de manière égale. Dans le cadre du test sur les modèles d'IA, l'auteur a quelque peu modifié le fonctionnement de Norway Mensa. (L'image ci-dessus présente les résultats du test.) Expliquant la méthode utilisée pour obtenir ces résultats, l'auteur a écrit :

Chaque IA a passé le test deux fois, afin de réduire la variance. Le terme "questions correctes" désigne le nombre moyen de questions correctes, sur deux administrations du test.

Bien que Norway Mensa refuse d'attribuer des scores inférieurs à 85, j'ai remarqué que chaque question valait 3 points de QI dans cette fourchette. J'ai donc utilisé ce chiffre pour estimer les scores inférieurs à 85. Ce n'est pas assez conforme aux règles pour Mensa Norvège, mais je pense que cela vaut la peine d'être calculé.

Il faut comprendre que le fait de deviner au hasard...

La fin de cet article est réservée aux abonnés. Soutenez le Club Developpez.com en prenant un abonnement pour que nous puissions continuer à vous proposer des publications.

Une erreur dans cette actualité ? Signalez-nous-la !

Votre nom : Votre e-mail :

Décrivez l'erreur que vous souhaitez porter à notre connaissance :

Identifiez-vous

Créer un compte

Les IA classées par QI, l'IA dépasse 100 points de QI pour la première fois, avec la sortie de Claude-3, plus intelligente que l'Américain moyen

Et les modèles GPT-4 d'OpenAI et Gemini de Google

Identifiant
Mot de passe

Mot de passe oublié ?

Identifiez-vous

Créer un compte

Les IA classées par QI, l'IA dépasse 100 points de QI pour la première fois, avec la sortie de Claude-3, plus intelligente que l'Américain moyen Et les modèles GPT-4 d'OpenAI et Gemini de Google

Les IA classées par QI, l'IA dépasse 100 points de QI pour la première fois, avec la sortie de Claude-3, plus intelligente que l'Américain moyen

Et les modèles GPT-4 d'OpenAI et Gemini de Google