
ce qui remet en cause la fiabilité des tests de QI pour l'IA
Un test évaluant les grands modèles de langage (LLM) selon leur QI suggère qu'ils progressent rapidement. Dans ce défi, plusieurs modèles de premier plan s'affrontent, notamment le tout nouveau GPT-5 d'OpenAI, Gemini 2.5 Pro de Google, etc. GPT-5 Pro (Vision) arrive en tête du classement avec un score de 138 pour le test de QI Mensa. Il est suivi par Gemini 2.5 Pro (137), o3 (127), o3 Pro (125), Grok 4 (125) et GPT-5 (121). OpenAI a présenté GPT-5 comme une avancée significative dans le domaine de l'IA. Mais le modèle s'est ridiculisé auprès des utilisateurs et n'a pas démontré une suprématie écrasante sur les benchmarks comme prévu par OpenAI.
Le projet Trackingai.org tente d'évaluer les « capacités cognitives » des modèles d'IA à l'aide de tests de QI standard comme les humains. Il s'agit d'un défi pour déterminer le « cerveau le plus puissant » dans le monde de l'IA. L'auteur a conçu une série de tests inspirés des tests de QI humains et a permis aux grands modèles de langage de premier plan de s'affronter directement et purement sur leur « QI », bien que la mesure soit très controversée.
Il existe deux méthodes de test. La première est le test de QI Mensa, le plus reconnu au monde. Si votre QI dépasse 130, vous pouvez rejoindre le club Mensa, composé de l'élite mondiale. La seconde est un test de questions-réponses spécialement conçu pour évaluer les performances des modèles.
Dans ce défi, GPT-5 Pro, Gemini 2.5 Pro de Google et Grok 4 de la société xAI d'Elon Musk se sont affrontés dans une compétition « intellectuelle » passionnante. Parallèlement, certains anciens champions et des « outsiders » inattendus ont également laissé leur empreinte dans ce classement. Leurs performances sont également riches en anecdotes et en inspiration. Les résultats des tests suggèrent que les anciens modèles sont toujours performants.
GPT-5 Pro, Gemini 2.5 Pro et Grok 4 sont des modèles actuellement au centre de l'attention. Ces trois modèles représentent le plus haut niveau des grands modèles commerciaux à code source fermé actuels. Chaque mise à jour et chaque nouvelle version ont un impact sur l'ensemble de la communauté technologique. C'est pourquoi lorsqu'ils se retrouvent sur la scène du même test tout le monde veut savoir qui est le « cerveau » le plus performant.
Gemini 2.5 Pro et GPT-5 Pro sont au coude à coude sur le test Mensa
Comme souligné précédemment, dans le système d'évaluation du QI humain, un score supérieur à 130 est considéré comme « extrêmement supérieur », ce que nous appelons généralement un génie. Un score supérieur à 140 est considéré comme le meilleur parmi les génies. Le QI d'Einstein est estimé à environ 160 par les scientifiques. Gemini 2.5 Pro de Google et GPT-5 Pro (Vision) d'OpenAI ont obtenu respectivement 137 et 138 sur le test Mensa.
Ces scores indiquent que leur capacité à gérer des tâches complexes telles que le raisonnement logique, la pensée abstraite et la reconnaissance de formes est déjà comparable à celle d'un petit groupe de personnes parmi les plus brillantes au monde. Cela suggère qu'il ne s'agit plus seulement de programmes qui imitent et répètent, mais qui font preuve d'une certaine capacité à résoudre des problèmes proches de la sagesse humaine de haut niveau.
Vient ensuite o3 d'OpenAI avec un QI de 127. Curieusement, les performances du modèle o3 sont inférieures à celles du modèle o3 Pro, mais le QI du modèle o3 est supérieur à celui du modèle o3 Pro (125). En tant que dernier membre de la série des modèles GPT, GPT-5 a un score de seulement 121.
Le dernier protagoniste est Grok 4 d'Elon Musk. Depuis sa sortie, le modèle Grok est connu pour son style unique et ses méthodes de réponse sans restriction, et est considéré comme une IA très personnalisée. Les résultats des tests montrent que Grok 4 a un QI de 125. Bien que ce score ne soit pas aussi impressionnant que celui des deux précédents concurrents, il dépasse déjà le niveau moyen des humains et entre dans la catégorie « supérieur ».
Le bon sens nous dit que les modèles les plus récents devraient avoir le QI le plus élevé. Mais Gemini 2.5 Pro est le modèle le plus ancien ici, suivi de Grok 4, et enfin GPT-5. Ce constat pourrait être lié au fait que leurs développeurs ont fait des compromis dans leurs réponses à ce type de questions. Les modèles Claude 4 Opus et Claude 4 Sonnet de la startup Anthropic, rivale d'OpenAI, ont respectivement obtenu les scores 117 et 119 lors des tests.
Quid des modèles de langage open source tels que Llama 4 de Meta ?
Outre les stars de premier plan, les chiffres et les positions des autres modèles donnent également matière à réflexion. Leurs histoires révèlent peut-être mieux certaines tendances et certains défis profondément ancrés dans le développement actuel de l'IA. Parmi eux, le plus regrettable est la série Llama de Meta. La série Llama, en particulier ses versions ultérieures, a autrefois été une référence parmi les grands modèles de langage open source.
Alors que des géants comme OpenAI et Google faisaient de grands progrès dans le domaine des modèles fermés, Meta a choisi d'ouvrir ses puissants modèles aux chercheurs et développeurs du monde entier, contribuant ainsi grandement à la prospérité de l'ensemble de l'écosystème de l'IA.
Llama était autrefois considéré comme l'espoir de la force open source et était capable de rivaliser avec les modèles propriétaires de haut niveau. Cependant, dans ce classement des IA par QI, Llama 4 Maverick n'a obtenu que 98 points. Un score de 98 n'est pas faible en soi. Il est très proche du QI moyen humain, qui est de 100. Cela signifie que Llama 4 Maverick peut résoudre des problèmes qui sont à la portée des personnes ordinaires.
Mais le problème est que ses concurrents ont obtenu des scores de 121, 125 et même 137. Dans une telle compétition entre des participants de haut niveau, atteindre simplement le « niveau moyen » est loin d'être suffisant. Meta accuse désormais un retard considérable par rapport aux modèles propriétaires. Afin de rattraper son retard, Meta a commencé à prendre des mesures, notamment en créant un nouveau laboratoire de superintelligence.
Récemment, de nombreux rapports ont souligné que Meta ne ménageait pas ses efforts pour recruter activement des chercheurs et des ingénieurs de haut niveau spécialisés dans l'IA auprès de concurrents tels que Google et OpenAI, en leur offrant des salaires et des ressources attractifs. Cette guerre du « débauchage des talents » est une étape cruciale pour Meta afin de combler son retard et de retrouver sa force. Cette tactique est très critiquée.
La liste ne comprend pas uniquement des perdants. Elle comporte également des « petites surprises » qu'il ne faut pas sous-estimer. Les données de test de Deepseek-R1 s'arrêtent à la fin du mois de mai, ce qui signifie qu'il utilise une version relativement ancienne. Toutefois, son score a atteint 102 points.
Le QI n'est pas considéré comme un test de référence fiable pour l'IA
La plus grande importance de cette méthode de simulation des tests de QI humains réside dans le fait qu'elle établit un pont de communication. Pendant longtemps, les indicateurs utilisés pour évaluer les performances des modèles d'IA - notamment MMLU, HellaSwag, ARC, etc. - ont constitué un obstacle insurmontable pour le grand public. Toutefois, ces différents benchmarks restent encore très importants dans le monde universitaire et industriel.
Ces abréviations et les détails techniques qui les sous-tendent rendent difficile la compréhension de ce qui rend une IA « intelligente ». Le concept de QI est depuis longtemps profondément ancré dans l'esprit des gens. Lorsque nous pouvons dire « cette IA a un QI de 137 », son niveau d'intelligence devient immédiatement concret, perceptible et comparable. Cependant, selon les experts, « le QI ne constitue pas une mesure fiable pour l'IA ».
Pour certains experts, il s'agit d'une mesure médiocre des capacités d'un grand modèle de langage, et elle est trompeuse. « Il peut être très tentant d'utiliser les mêmes mesures que celles utilisées pour les humains afin de décrire les capacités ou les progrès, mais cela revient à comparer des pommes et des oranges », a déclaré Sandra Wachter, chercheuse spécialisée dans les technologies et la réglementation à Oxford, à TechCrunch.

« Les tests de QI sont assez faciles à manipuler si vous disposez d'une mémoire et d'une patience pratiquement infinies. Ils sont un moyen très limité de mesurer la cognition, la sensibilité et l'intelligence, ce que nous savons depuis bien avant l'invention de l'ordinateur numérique lui-même », a déclaré Os Keyes.
Par ailleurs, l'IA bénéficie probablement d'un avantage injuste dans les tests de QI, étant donné que les grands modèles de langage disposent d'une mémoire et de connaissances internalisées considérables. Les modèles sont entraînés à partir de données publiques disponibles sur le Web, et le Web regorge d'exemples de questions tirées de tests de QI. Ce qui enlève davantage à la fiabilité des tests de QI pour les grands modèles de langage.
En fin de compte, les tests de QI, aussi biaisés soient-ils, ont été conçus pour les humains dans le but d'évaluer les capacités générales de résolution de problèmes. Ils ne sont pas adaptés à une technologie qui aborde la résolution de problèmes d'une manière très différente de celle des humains.
Conclusion
Le test de QI pour l'IA est une mesure vulgarisée qui tente de réduire le seuil de compréhension des capacités de l'IA par le grand public. Mais ces classements sont essentiellement symboliques : ils utilisent des tests conçus pour les humains et ne reflètent pas la véritable « intelligence » des IA. Un modèle peut obtenir un score élevé sans réellement comprendre ou raisonner comme un humain, ce qui limite la valeur pratique de ce type de classement.
Source : Trackingai.org
Et vous ?



Voir aussi



Vous avez lu gratuitement 1 405 articles depuis plus d'un an.
Soutenez le club developpez.com en souscrivant un abonnement pour que nous puissions continuer à vous proposer des publications.
Soutenez le club developpez.com en souscrivant un abonnement pour que nous puissions continuer à vous proposer des publications.