
Anthropic a dévoilé lundi une nouvelle famille de modèles d'IA, collectivement appelée la famille de modèles Claude 3. L'entreprise a lancé trois modèles de tailles différentes, chacun présentant un équilibre variable entre l'intelligence, la vitesse et le coût. Selon Anthropic, le plus grand de ses nouveaux modèles, appelé Opus, surpasse les modèles les plus avancés d'OpenAI et de Google, respectivement GPT-4 et Gemini Ultra, dans des tests mesurant les connaissances de premier cycle (MMLU), le raisonnement (GPQA) ainsi que les mathématiques de base (GSM8k - un ensemble de problèmes de mathématiques de l'école primaire).
L'enfant du milieu de la famille, Claude 3 Sonnet, serait deux fois plus rapide que le meilleur modèle précédent d'Anthropic, Claude 2.1, et possède une intelligence supérieure. Selon Anthropic, Sonnet excelle dans les tâches exigeant des réponses rapides, comme la recherche de connaissance ou l'automatisation des ventes. Enfin, Anthropic ajoute que le plus petit modèle, Claude 3 Haiku, surpasse les autres modèles de taille comparable en matière de performances, de vitesse et de coût. Il peut lire un document de recherche dense d'environ 7 500 mots avec des tableaux et des graphiques en moins de trois secondes.
En outre, Claude 3 aurait obtenu un score de 104 à un test de QI (quotient intellectuel) réalisé par un utilisateur. Ce test, dont les résultats sont controversés dans la communauté, constitue une nouvelle illustration des performances de Claude 3. À titre de comparaison, le QI d'un Américain moyen est de 98. Les résultats du test suggèrent que Claude 3 surpasse GPT-4, qui arrive à la deuxième place du classement avec un score de 85. (La variante de Claude 3 utilisée dans le cadre du test n'est pas précisée.) Claude 2 est classé troisième avec un score de 82, contre 79 pour Microsoft Copilot et 77,5 pour une version de Gemini.
Plus bas dans le classement, l'on retrouve Llama 2 de Meta qui a obtenu un score de 67, surpassant les modèles Claude 1, GPT-3 et Grok Fun qui ont obtenu chacun un score de 64. Une autre version de Grok, le chabot développé par la startup d'IA xAI d'Elon Musk, a obtenu un score plus élevé de 68,5. Le test est basé sur l'ensemble de données Norway Mensa, un challenge en ligne qui, selon ces auteurs, donne une indication des capacités cognitives générales, représentées par un score de QI compris entre 85 et 145, où 100 est la moyenne de la population. Il comprend 35 problèmes qui doivent être résolus en 25 minutes.
Tous les problèmes sont constitués de motifs visuels logiques, avec une difficulté progressive. Selon les auteurs l'ensemble de données, les problèmes ne nécessitent ni connaissance spécialisée ni compétences mathématiques. Chaque réponse correcte donne un point et tous les éléments sont pondérés de manière égale. Dans le cadre du test sur les modèles d'IA, l'auteur a quelque peu modifié le fonctionnement de Norway Mensa. (L'image ci-dessus présente les résultats du test.) Expliquant la méthode utilisée pour obtenir ces résultats, l'auteur a écrit :
Chaque IA a passé le test deux fois, afin de réduire la variance. Le terme "questions correctes" désigne le nombre moyen de questions correctes, sur deux administrations du test.
Bien que Norway Mensa refuse d'attribuer des scores inférieurs à 85, j'ai remarqué que chaque question valait 3 points de QI dans cette fourchette. J'ai donc utilisé ce chiffre pour estimer les scores inférieurs à 85. Ce n'est pas assez conforme aux règles pour Mensa Norvège, mais je pense que cela vaut la peine d'être calculé.
Il faut comprendre que le fait de deviner au hasard donne un score de 63,5 - ce score doit être considéré comme la base de référence, à laquelle une IA peut s'attendre simplement parce qu'elle se rend compte qu'on lui demande de choisir une lettre, et qu'elle en crache une.
Si vous préférez une mesure plus concrète, regardez plutôt la colonne "questions correctes" ou la dernière colonne, qui donne la probabilité que l'IA ait obtenu de meilleurs résultats qu'un joueur aléatoire (que j'ai calculée en simulant un million de joueurs aléatoires qui ont passé le test ; les chiffres de la colonne indiquent le pourcentage de simulations que l'IA a battu).
Extrapolant les résultats, l'auteur suggère qu'à l'avenir Claude 4 et Claude 5 pourraient obtenir au test de QI des scores de 120 et 140, respectivement. « Il est clair que Claude 3 est l'IA la plus intelligente, mais avant cela, ChatGPT était le leader incontesté. Lorsqu’OpenAI publiera la prochaine version de ChatGPT, en se basant sur la différence de capacité de test entre ChatGPT-3.5 et ChatGPT-4, je m'attends à ce qu'elle ait un QI d'environ 106 ». Bien que ce test de QI puisse sembler intéressant, il est largement controversé dans la communauté et certains remettent en cause la pertinence de l'évaluation du QI des modèles d'IA.
« Les tests de QI pour les modèles semblent quelque peu défectueux. Par exemple, la plupart des tests de QI (si ce n'est tous) testent la mémoire de travail. Cela signifie que l'on vous donnera une chaîne de caractères et de chiffres, et que vous devrez les réitérer dans un certain ordre. C'est tout à fait trivial pour une machine, et cela donnera un score maximal très faussé. Il en va de même pour la détection des différences. Une tâche typique consiste à montrer deux images différentes et à trouver la différence entre elles. Là également, il s'agit d'une tâche totalement triviale pour une machine », lit-on dans les commentaires.
Un autre critique note : « il ne s'agit pas d'un article révisé par des pairs, mais d'un type qui s'amuse avec des tests de QI. Les tests de QI sont déjà suffisamment controversés par les experts qui les utilisent, sans parler des journalistes aléatoires et non formés. En parcourant l'article, il y a beaucoup de signaux d'alarme dans les méthodes utilisées par l'auteur. Le fait de n'effectuer les tests que deux fois par modèle laisse beaucoup de place à la variance, et ses hypothèses sur les scores de QI inférieurs à 85 ne semblent pas non plus reposer sur grand-chose ». En outre, le test suggère que nous nous rapprochons de l'AGI.
L'auteur prédit du test prédit en effet qu'à l'avenir, il pourrait y avoir un modèle...
La fin de cet article est réservée aux abonnés. Soutenez le Club Developpez.com en prenant un abonnement pour que nous puissions continuer à vous proposer des publications.