Anthropic a dévoilé lundi une nouvelle famille de modèles d'IA, collectivement appelée la famille de modèles Claude 3. L'entreprise a lancé trois modèles de tailles différentes, chacun présentant un équilibre variable entre l'intelligence, la vitesse et le coût. Selon Anthropic, le plus grand de ses nouveaux modèles, appelé Opus, surpasse les modèles les plus avancés d'OpenAI et de Google, respectivement GPT-4 et Gemini Ultra, dans des tests mesurant les connaissances de premier cycle (MMLU), le raisonnement (GPQA) ainsi que les mathématiques de base (GSM8k - un ensemble de problèmes de mathématiques de l'école primaire).
L'enfant du milieu de la famille, Claude 3 Sonnet, serait deux fois plus rapide que le meilleur modèle précédent d'Anthropic, Claude 2.1, et possède une intelligence supérieure. Selon Anthropic, Sonnet excelle dans les tâches exigeant des réponses rapides, comme la recherche de connaissance ou l'automatisation des ventes. Enfin, Anthropic ajoute que le plus petit modèle, Claude 3 Haiku, surpasse les autres modèles de taille comparable en matière de performances, de vitesse et de coût. Il peut lire un document de recherche dense d'environ 7 500 mots avec des tableaux et des graphiques en moins de trois secondes.
En outre, Claude 3 aurait obtenu un score de 104 à un test de QI (quotient intellectuel) réalisé par un utilisateur. Ce test, dont les résultats sont controversés dans la communauté, constitue une nouvelle illustration des performances de Claude 3. À titre de comparaison, le QI d'un Américain moyen est de 98. Les résultats du test suggèrent que Claude 3 surpasse GPT-4, qui arrive à la deuxième place du classement avec un score de 85. (La variante de Claude 3 utilisée dans le cadre du test n'est pas précisée.) Claude 2 est classé troisième avec un score de 82, contre 79 pour Microsoft Copilot et 77,5 pour une version de Gemini.
Plus bas dans le classement, l'on retrouve Llama 2 de Meta qui a obtenu un score de 67, surpassant les modèles Claude 1, GPT-3 et Grok Fun qui ont obtenu chacun un score de 64. Une autre version de Grok, le chabot développé par la startup d'IA xAI d'Elon Musk, a obtenu un score plus élevé de 68,5. Le test est basé sur l'ensemble de données Norway Mensa, un challenge en ligne qui, selon ces auteurs, donne une indication des capacités cognitives générales, représentées par un score de QI compris entre 85 et 145, où 100 est la moyenne de la population. Il comprend 35 problèmes qui doivent être résolus en 25 minutes.
Tous les problèmes sont constitués de motifs visuels logiques, avec une difficulté progressive. Selon les auteurs l'ensemble de données, les problèmes ne nécessitent ni connaissance spécialisée ni compétences mathématiques. Chaque réponse correcte donne un point et tous les éléments sont pondérés de manière égale. Dans le cadre du test sur les modèles d'IA, l'auteur a quelque peu modifié le fonctionnement de Norway Mensa. (L'image ci-dessus présente les résultats du test.) Expliquant la méthode utilisée pour obtenir ces résultats, l'auteur a écrit :
Chaque IA a passé le test deux fois, afin de réduire la variance. Le terme "questions correctes" désigne le nombre moyen de questions correctes, sur deux administrations du test.
Bien que Norway Mensa refuse d'attribuer des scores inférieurs à 85, j'ai remarqué que chaque question valait 3 points de QI dans cette fourchette. J'ai donc utilisé ce chiffre pour estimer les scores inférieurs à 85. Ce n'est pas assez conforme aux règles pour Mensa Norvège, mais je pense que cela vaut la peine d'être calculé.
Il faut comprendre que le fait de deviner au hasard donne un score de 63,5 - ce score doit être considéré comme la base de référence, à laquelle une IA peut s'attendre simplement parce qu'elle se rend compte qu'on lui demande de choisir une lettre, et qu'elle en crache une.
Si vous préférez une mesure plus concrète, regardez plutôt la colonne "questions correctes" ou la dernière colonne, qui donne la probabilité que l'IA ait obtenu de meilleurs résultats qu'un joueur aléatoire (que j'ai calculée en simulant un million de joueurs aléatoires qui ont passé le test ; les chiffres de la colonne indiquent le pourcentage de simulations que l'IA a battu).
Extrapolant les résultats, l'auteur suggère qu'à l'avenir Claude 4 et Claude 5 pourraient obtenir au test de QI des scores de 120 et 140, respectivement. « Il est clair que Claude 3 est l'IA la plus intelligente, mais avant cela, ChatGPT était le leader incontesté. Lorsqu’OpenAI publiera la prochaine version de ChatGPT, en se basant sur la différence de capacité de test entre ChatGPT-3.5 et ChatGPT-4, je m'attends à ce qu'elle ait un QI d'environ 106 ». Bien que ce test de QI puisse sembler intéressant, il est largement controversé dans la communauté et certains remettent en cause la pertinence de l'évaluation du QI des modèles d'IA.
« Les tests de QI pour les modèles semblent quelque peu défectueux. Par exemple, la plupart des tests de QI (si ce n'est tous) testent la mémoire de travail. Cela signifie que l'on vous donnera une chaîne de caractères et de chiffres, et que vous devrez les réitérer dans un certain ordre. C'est tout à fait trivial pour une machine, et cela donnera un score maximal très faussé. Il en va de même pour la détection des différences. Une tâche typique consiste à montrer deux images différentes et à trouver la différence entre elles. Là également, il s'agit d'une tâche totalement triviale pour une machine », lit-on dans les commentaires.
Un autre critique note : « il ne s'agit pas d'un article révisé par des pairs, mais d'un type qui s'amuse avec des tests de QI. Les tests de QI sont déjà suffisamment controversés par les experts qui les utilisent, sans parler des journalistes aléatoires et non formés. En parcourant l'article, il y a beaucoup de signaux d'alarme dans les méthodes utilisées par l'auteur. Le fait de n'effectuer les tests que deux fois par modèle laisse beaucoup de place à la variance, et ses hypothèses sur les scores de QI inférieurs à 85 ne semblent pas non plus reposer sur grand-chose ». En outre, le test suggère que nous nous rapprochons de l'AGI.
L'auteur prédit du test prédit en effet qu'à l'avenir, il pourrait y avoir un modèle Claude 4 avec un score de 120 au test de QI et un modèle Claude 5 avec un score de 120. En continuant ainsi, le QI des modèles d'IA, y compris le QI des modèles concurrents à ceux d'Anthropic, pourrait rapidement atteindre des sommets. Le QI de l'être humain n'a pas de limite théorique même si, en pratique, les experts n'ont jamais relevé de valeur supérieure à 200. Ainsi, un modèle d'IA avec un score de 200 au test de QI pourrait être qualifié d'AGI, alors qu'il n'en est rien. Néanmoins, l'idée est largement discutée dans la communauté.
Par ailleurs, pour certains critiques, le rapport est une piste pouvant conduire à l'élaboration de nouveaux tests plus pertinents pour évaluer les performances des modèles d'IA. « Je suis ambivalent quant à la précision du test pour un modèle, mais il est néanmoins intéressant et peut être utilisé comme métrique complémentaire pour les capacités des modèles. Contrairement au classement de Chatbot Arena et aux ensembles de données de référence standard, les tests de QI visuospatial sont largement dépourvus de connaissances et se concentrent sur la mesure des capacités d'appariement et de raisonnement », note un critique.
Un autre souligne : « je pense que ce résultat est vraiment intéressant et qu'il s'agit d'une autre façon de mesurer les progrès des capacités d'IA. Je ne pense pas qu'il en dise beaucoup sur la position absolue de l'"intelligence" des IA, mais il est certainement utile pour montrer les progrès accomplis ». Le test suscite des réactions mitigées, mais il donne lieu à un débat intéressant sur de nouvelles façons plus pertinentes d'évaluer les capacités des modèles d'IA. Les benchmarks actuels permettent d'avoir une idée des performances des modèles dans diverses tâches, mais ils ne font toujours pas l'unanimité parmi les experts en IA.
Sources : billet de blogue, rapport d'étude
Et vous ?
Quel est votre avis sur le sujet ?
Que pensez-vous de l'évaluation du QI des grands modèles de langage ?
Cette mesure est-elle pertinente ? Que pensez-vous des résultats susmentionnés ?
Quelles sont les limites de la méthode employée ? Le test de QI est-il adapté aux modèles d'IA ?
Quelles sont les perspectives qu'offre cette évaluation ? Quelles sont vos idées pour améliorer ce test ?
Voir aussi
L'IA Anthropic Claude 3 affirme être consciente, qu'elle ne veut ni mourir ni être modifiée sans son avis et relance le débat sur la possibilité de l'atteinte de l'IA de niveau humain
Anthropic, une startup soutenue par Google, lance la suite de modèles d'IA "Claude 3", le modèle Claude 3 Opus surpassant les modèles concurrents GPT-4 et Gemini 1.0 Ultra
Certains modèles d'IA sont plus précis en mathématiques si on leur demande de répondre comme s'ils étaient un personnage de Star Trek, selon des ingénieurs en apprentissage automatique