Un test évaluant les grands modèles de langage (LLM) selon leur QI suggère qu'ils progressent rapidement. Dans ce défi, plusieurs modèles de premier plan s'affrontent, notamment le tout nouveau GPT-5 d'OpenAI, Gemini 2.5 Pro de Google, etc. GPT-5 Pro (Vision) arrive en tête du classement avec un score de 138 pour le test de QI Mensa. Il est suivi par Gemini 2.5 Pro (137), o3 (127), o3 Pro (125), Grok 4 (125) et GPT-5 (121). OpenAI a présenté GPT-5 comme une avancée significative dans le domaine de l'IA. Mais le modèle s'est ridiculisé auprès des utilisateurs et n'a pas démontré une suprématie écrasante sur les benchmarks comme prévu par OpenAI.Le projet Trackingai.org tente d'évaluer les « capacités cognitives » des modèles d'IA à l'aide de tests de QI standard comme les humains. Il s'agit d'un défi pour déterminer le « cerveau le plus puissant » dans le monde de l'IA. L'auteur a conçu une série de tests inspirés des tests de QI humains et a permis aux grands modèles de langage de premier plan de s'affronter directement et purement sur leur « QI », bien que la mesure soit très controversée.
Il existe deux méthodes de test. La première est le test de QI Mensa, le plus reconnu au monde. Si votre QI dépasse 130, vous pouvez rejoindre le club Mensa, composé de l'élite mondiale. La seconde est un test de questions-réponses spécialement conçu pour évaluer les performances des modèles.
Dans ce défi, GPT-5 Pro, Gemini 2.5 Pro de Google et Grok 4 de la société xAI d'Elon Musk se sont affrontés dans une compétition « intellectuelle » passionnante. Parallèlement, certains anciens champions et des « outsiders » inattendus ont également laissé leur empreinte dans ce classement. Leurs performances sont également riches en anecdotes et en inspiration. Les résultats des tests suggèrent que les anciens modèles sont toujours performants.
GPT-5 Pro, Gemini 2.5 Pro et Grok 4 sont des modèles actuellement au centre de l'attention. Ces trois modèles représentent le plus haut niveau des grands modèles commerciaux à code source fermé actuels. Chaque mise à jour et chaque nouvelle version ont un impact sur l'ensemble de la communauté technologique. C'est pourquoi lorsqu'ils se retrouvent sur la scène du même test tout le monde veut savoir qui est le « cerveau » le plus performant.
Gemini 2.5 Pro et GPT-5 Pro sont au coude à coude sur le test Mensa
Comme souligné précédemment, dans le système d'évaluation du QI humain, un score supérieur à 130 est considéré comme « extrêmement supérieur », ce que nous appelons généralement un génie. Un score supérieur à 140 est considéré comme le meilleur parmi les génies. Le QI d'Einstein est estimé à environ 160 par les scientifiques. Gemini 2.5 Pro de Google et GPT-5 Pro (Vision) d'OpenAI ont obtenu respectivement 137 et 138 sur le test Mensa.
Ces scores indiquent que leur capacité à gérer des tâches complexes telles que le raisonnement logique, la pensée abstraite et la reconnaissance de formes est déjà comparable à celle d'un petit groupe de personnes parmi les plus brillantes au monde. Cela suggère qu'il ne s'agit plus seulement de programmes qui imitent et répètent, mais qui font preuve d'une certaine capacité à résoudre des problèmes proches de la sagesse humaine de haut niveau.
Vient ensuite o3 d'OpenAI avec un QI de 127. Curieusement, les performances du modèle o3 sont inférieures à celles du modèle o3 Pro, mais le QI du modèle o3 est supérieur à celui du modèle o3 Pro (125). En tant que dernier membre de la série des modèles GPT, GPT-5 a un score de seulement 121.
Le dernier protagoniste est Grok 4 d'Elon Musk. Depuis sa sortie, le modèle Grok est connu pour son style unique et ses méthodes de réponse sans restriction, et est considéré comme une IA très personnalisée. Les résultats des tests montrent que Grok 4 a un QI de 125. Bien que ce score ne soit pas aussi impressionnant que celui des deux précédents concurrents, il dépasse déjà le niveau moyen des humains et entre dans la catégorie « supérieur ».
Le bon sens nous dit que les modèles les plus récents devraient avoir le QI le plus élevé. Mais Gemini 2.5 Pro est le modèle le plus ancien ici, suivi de Grok 4, et enfin GPT-5. Ce constat pourrait être lié au fait que leurs développeurs ont fait des compromis dans leurs réponses à ce type de questions. Les modèles Claude 4 Opus et Claude 4 Sonnet de la startup Anthropic, rivale d'OpenAI, ont respectivement obtenu les scores 117 et 119 lors des tests.
Quid des modèles de langage open source tels que Llama 4 de Meta ?
Outre les stars de premier plan, les chiffres et les positions des autres modèles donnent également matière à réflexion. Leurs histoires révèlent peut-être mieux certaines tendances et certains défis profondément ancrés dans le...
La fin de cet article est réservée aux abonnés. Soutenez le Club Developpez.com en prenant un abonnement pour que nous puissions continuer à vous proposer des publications.

