IdentifiantMot de passe
Loading...
Mot de passe oublié ?Je m'inscris ! (gratuit)

Vous êtes nouveau sur Developpez.com ? Créez votre compte ou connectez-vous afin de pouvoir participer !

Vous devez avoir un compte Developpez.com et être connecté pour pouvoir participer aux discussions.

Vous n'avez pas encore de compte Developpez.com ? Créez-en un en quelques instants, c'est entièrement gratuit !

Si vous disposez déjà d'un compte et qu'il est bien activé, connectez-vous à l'aide du formulaire ci-dessous.

Identifiez-vous
Identifiant
Mot de passe
Mot de passe oublié ?
Créer un compte

L'inscription est gratuite et ne vous prendra que quelques instants !

Je m'inscris !

Classement des IA par QI : GPT-5 Pro en tête avec 138 points, alors que le modèle affiche des performances médiocres et est qualifié de « fiasco »,
Ce qui remet en cause la fiabilité des tests de QI pour l'IA

Le , par Mathis Lucas

17PARTAGES

9  0 
Classement des IA par QI : GPT-5 Pro en tête avec 138 points, alors que le modèle affiche des performances médiocres et est qualifié de « fiasco »
ce qui remet en cause la fiabilité des tests de QI pour l'IA

Un test évaluant les grands modèles de langage (LLM) selon leur QI suggère qu'ils progressent rapidement. Dans ce défi, plusieurs modèles de premier plan s'affrontent, notamment le tout nouveau GPT-5 d'OpenAI, Gemini 2.5 Pro de Google, etc. GPT-5 Pro (Vision) arrive en tête du classement avec un score de 138 pour le test de QI Mensa. Il est suivi par Gemini 2.5 Pro (137), o3 (127), o3 Pro (125), Grok 4 (125) et GPT-5 (121). OpenAI a présenté GPT-5 comme une avancée significative dans le domaine de l'IA. Mais le modèle s'est ridiculisé auprès des utilisateurs et n'a pas démontré une suprématie écrasante sur les benchmarks comme prévu par OpenAI.

Le projet Trackingai.org tente d'évaluer les « capacités cognitives » des modèles d'IA à l'aide de tests de QI standard comme les humains. Il s'agit d'un défi pour déterminer le « cerveau le plus puissant » dans le monde de l'IA. L'auteur a conçu une série de tests inspirés des tests de QI humains et a permis aux grands modèles de langage de premier plan de s'affronter directement et purement sur leur « QI », bien que la mesure soit très controversée.

Il existe deux méthodes de test. La première est le test de QI Mensa, le plus reconnu au monde. Si votre QI dépasse 130, vous pouvez rejoindre le club Mensa, composé de l'élite mondiale. La seconde est un test de questions-réponses spécialement conçu pour évaluer les performances des modèles.

Dans ce défi, GPT-5 Pro, Gemini 2.5 Pro de Google et Grok 4 de la société xAI d'Elon Musk se sont affrontés dans une compétition « intellectuelle » passionnante. Parallèlement, certains anciens champions et des « outsiders » inattendus ont également laissé leur empreinte dans ce classement. Leurs performances sont également riches en anecdotes et en inspiration. Les résultats des tests suggèrent que les anciens modèles sont toujours performants.


GPT-5 Pro, Gemini 2.5 Pro et Grok 4 sont des modèles actuellement au centre de l'attention. Ces trois modèles représentent le plus haut niveau des grands modèles commerciaux à code source fermé actuels. Chaque mise à jour et chaque nouvelle version ont un impact sur l'ensemble de la communauté technologique. C'est pourquoi lorsqu'ils se retrouvent sur la scène du même test tout le monde veut savoir qui est le « cerveau » le plus performant.

Gemini 2.5 Pro et GPT-5 Pro sont au coude à coude sur le test Mensa

Comme souligné précédemment, dans le système d'évaluation du QI humain, un score supérieur à 130 est considéré comme « extrêmement supérieur », ce que nous appelons généralement un génie. Un score supérieur à 140 est considéré comme le meilleur parmi les génies. Le QI d'Einstein est estimé à environ 160 par les scientifiques. Gemini 2.5 Pro de Google et GPT-5 Pro (Vision) d'OpenAI ont obtenu respectivement 137 et 138 sur le test Mensa.

Ces scores indiquent que leur capacité à gérer des tâches complexes telles que le raisonnement logique, la pensée abstraite et la reconnaissance de formes est déjà comparable à celle d'un petit groupe de personnes parmi les plus brillantes au monde. Cela suggère qu'il ne s'agit plus seulement de programmes qui imitent et répètent, mais qui font preuve d'une certaine capacité à résoudre des problèmes proches de la sagesse humaine de haut niveau.

Vient ensuite o3 d'OpenAI avec un QI de 127. Curieusement, les performances du modèle o3 sont inférieures à celles du modèle o3 Pro, mais le QI du modèle o3 est supérieur à celui du modèle o3 Pro (125). En tant que dernier membre de la série des modèles GPT, GPT-5 a un score de seulement 121.

Le dernier protagoniste est Grok 4 d'Elon Musk. Depuis sa sortie, le modèle Grok est connu pour son style unique et ses méthodes de réponse sans restriction, et est considéré comme une IA très personnalisée. Les résultats des tests montrent que Grok 4 a un QI de 125. Bien que ce score ne soit pas aussi impressionnant que celui des deux précédents concurrents, il dépasse déjà le niveau moyen des humains et entre dans la catégorie « supérieur ».

Le bon sens nous dit que les modèles les plus récents devraient avoir le QI le plus élevé. Mais Gemini 2.5 Pro est le modèle le plus ancien ici, suivi de Grok 4, et enfin GPT-5. Ce constat pourrait être lié au fait que leurs développeurs ont fait des compromis dans leurs réponses à ce type de questions. Les modèles Claude 4 Opus et Claude 4 Sonnet de la startup Anthropic, rivale d'OpenAI, ont respectivement obtenu les scores 117 et 119 lors des tests.

Quid des modèles de langage open source tels que Llama 4 de Meta ?

Outre les stars de premier plan, les chiffres et les positions des autres modèles donnent également matière à réflexion. Leurs histoires révèlent peut-être mieux certaines tendances et certains défis profondément ancrés dans le développement actuel de l'IA. Parmi eux, le plus regrettable est la série Llama de Meta. La série Llama, en particulier ses versions ultérieures, a autrefois été une référence parmi les grands modèles de langage open source.


Alors que des géants comme OpenAI et Google faisaient de grands progrès dans le domaine des modèles fermés, Meta a choisi d'ouvrir ses puissants modèles aux chercheurs et développeurs du monde entier, contribuant ainsi grandement à la prospérité de l'ensemble de l'écosystème de l'IA.

Llama était autrefois considéré comme l'espoir de la force open source et était capable de rivaliser avec les modèles propriétaires de haut niveau. Cependant, dans ce classement des IA par QI, Llama 4 Maverick n'a obtenu que 98 points. Un score de 98 n'est pas faible en soi. Il est très proche du QI moyen humain, qui est de 100. Cela signifie que Llama 4 Maverick peut résoudre des problèmes qui sont à la portée des personnes ordinaires.

Mais le problème est que ses concurrents ont obtenu des scores de 121, 125 et même 137. Dans une telle compétition entre des participants de haut niveau, atteindre simplement le « niveau moyen » est loin d'être suffisant. Meta accuse désormais un retard considérable par rapport aux modèles propriétaires. Afin de rattraper son retard, Meta a commencé à prendre des mesures, notamment en créant un nouveau laboratoire de superintelligence.

Récemment, de nombreux rapports ont souligné que Meta ne ménageait pas ses efforts pour recruter activement des chercheurs et des ingénieurs de haut niveau spécialisés dans l'IA auprès de concurrents tels que Google et OpenAI, en leur offrant des salaires et des ressources attractifs. Cette guerre du « débauchage des talents » est une étape cruciale pour Meta afin de combler son retard et de retrouver sa force. Cette tactique est très critiquée.

La liste ne comprend pas uniquement des perdants. Elle comporte également des « petites surprises » qu'il ne faut pas sous-estimer. Les données de test de Deepseek-R1 s'arrêtent à la fin du mois de mai, ce qui signifie qu'il utilise une version relativement ancienne. Toutefois, son score a atteint 102 points.

Le QI n'est pas considéré comme un test de référence fiable pour l'IA

La plus grande importance de cette méthode de simulation des tests de QI humains réside dans le fait qu'elle établit un pont de communication. Pendant longtemps, les indicateurs utilisés pour évaluer les performances des modèles d'IA - notamment MMLU, HellaSwag, ARC, etc. - ont constitué un obstacle insurmontable pour le grand public. Toutefois, ces différents benchmarks restent encore très importants dans le monde universitaire et industriel.

Ces abréviations et les détails techniques qui les sous-tendent rendent difficile la compréhension de ce qui rend une IA « intelligente ». Le concept de QI est depuis longtemps profondément ancré dans l'esprit des gens. Lorsque nous pouvons dire « cette IA a un QI de 137 », son niveau d'intelligence devient immédiatement concret, perceptible et comparable. Cependant, selon les experts, « le QI ne constitue pas une mesure fiable pour l'IA ».

Pour certains experts, il s'agit d'une mesure médiocre des capacités d'un grand modèle de langage, et elle est trompeuse. « Il peut être très tentant d'utiliser les mêmes mesures que celles utilisées pour les humains afin de décrire les capacités ou les progrès, mais cela revient à comparer des pommes et des oranges », a déclaré Sandra Wachter, chercheuse spécialisée dans les technologies et la réglementation à Oxford, à TechCrunch.

Citation Envoyé par Sandra Wachter, chercheuse à Oxford


Le QI est un outil controversé permettant de mesurer les capacités humaines basé sur ce que les scientifiques considèrent comme l'intelligence humaine. Mais on ne peut pas utiliser la même mesure pour décrire les capacités de l'IA. Une voiture est plus rapide que l'homme, et un sous-marin est plus performant pour plonger. Mais cela ne signifie pas que les voitures ou les sous-marins surpassent l'intelligence humaine. Vous confondez un aspect de la performance avec l'intelligence humaine, qui est beaucoup plus complexe.

Selon Os Keyes, doctorant à l'université de Washington qui étudie l'éthique de l'IA, le fait qu'un modèle obtienne de bons résultats à un test de QI en dit plus long sur les défauts du test que sur les performances du modèle. L'auteur du projet Trackingai.org affirme lui-même sur son site officiel que « les tests de QI sur les modèles sont davantage destinés à divertir », car le QI des modèles ne peut pas être complètement équivalent au QI humain.

« Les tests de QI sont assez faciles à manipuler si vous disposez d'une mémoire et d'une patience pratiquement infinies. Ils sont un moyen très limité de mesurer la cognition, la sensibilité et l'intelligence, ce que nous savons depuis bien avant l'invention de l'ordinateur numérique lui-même », a déclaré Os Keyes.

Par ailleurs, l'IA bénéficie probablement d'un avantage injuste dans les tests de QI, étant donné que les grands modèles de langage disposent d'une mémoire et de connaissances internalisées considérables. Les modèles sont entraînés à partir de données publiques disponibles sur le Web, et le Web regorge d'exemples de questions tirées de tests de QI. Ce qui enlève davantage à la fiabilité des tests de QI pour les grands modèles de langage.

En fin de compte, les tests de QI, aussi biaisés soient-ils, ont été conçus pour les humains dans le but d'évaluer les capacités générales de résolution de problèmes. Ils ne sont pas adaptés à une technologie qui aborde la résolution de problèmes d'une manière très différente de celle des humains.

Conclusion

Le test de QI pour l'IA est une mesure vulgarisée qui tente de réduire le seuil de compréhension des capacités de l'IA par le grand public. Mais ces classements sont essentiellement symboliques : ils utilisent des tests conçus pour les humains et ne reflètent pas la véritable « intelligence » des IA. Un modèle peut obtenir un score élevé sans réellement comprendre ou raisonner comme un humain, ce qui limite la valeur pratique de ce type de classement.

Source : Trackingai.org

Et vous ?

Quel est votre avis sur le sujet ?
Que pensez-vous des résultats de ces tests ? Sont-ils pertinents ?
Que pensez-vous du score obtenu par GPT-5 malgré les performances médiocres dont il a fait preuve ?

Voir aussi

GPT-5 : il n'a fallu que 24 heures de plaintes pour qu'OpenAI réintroduise son ancien modèle. Le lancement du GPT-5 a été un désastre, les utilisateurs le qualifiant de « machine à conneries horrible »

Les IA classées par QI, l'IA dépasse 100 points de QI pour la première fois, avec la sortie de Claude-3, plus intelligente que l'Américain moyen et les modèles GPT-4 d'OpenAI et Gemini de Google

GPT-5 entre enthousiasme et scepticisme : ChatGPT d'OpenAI brille dans des tâches techniques comme la programmation, mais des erreurs embarrassantes évoquent une évolution incrémentale plutôt qu'une révolution
Vous avez lu gratuitement 1 405 articles depuis plus d'un an.
Soutenez le club developpez.com en souscrivant un abonnement pour que nous puissions continuer à vous proposer des publications.

Une erreur dans cette actualité ? Signalez-nous-la !

Avatar de totozor
Expert confirmé https://www.developpez.com
Le 19/08/2025 à 14:30
GPT-5 a un intérêt : prouver le ridicule du test de QI
1  0 
Avatar de gabi7756
Membre confirmé https://www.developpez.com
Le 20/08/2025 à 17:03
Pro-tip : si ton enfant n'est pas bon à l'école inscrit le dans des préparations au test de QI puis demandes un diagnostic HPI (je ne sais pas quelle est l'astuce pour les nouvelles modes TDAH et spectre autistique)
Une belle façon d'excuser le devoir des parents ca.

Aujourd'hui à 21 ans je me rend compte que à défaut d'avoir été diagnostiqué, je suis sûrement dislexique ( ou peut être con ca marche ausssi xD).

Bref je me suis jamais servi en excuse mes difficultés dans ma scolarité pour pas faire ce que je voulais faire, aujourd'hui ca me fais marrer les parents qui font passer 5 fois les test pour que leur gamin soit HPI, dyslexique ou tout ce que tu veux.

Si t'en à rien à faire d'instruire et de consacré du temps à tes gamins, n'en fait pas ... C'est pas plus compliqué que ça.
1  0 
Avatar de Prox_13
Membre éprouvé https://www.developpez.com
Le 19/08/2025 à 13:50
"Vous voulez dire qu'OpenAI brasse du vent ?
- Oui.
- Nooon.
- Si.
- Ooooh."

0  0 
Avatar de Fagus
Membre expert https://www.developpez.com
Le 19/08/2025 à 17:38
Citation Envoyé par totozor Voir le message
GPT-5 a un intérêt : prouver le ridicule du test de QI
Il faut utiliser les outils pour la tâche pour lesquels ils ont été conçus.

Ces tests ont été inventés à la base il y a plus d'un siècle pour savoir si un enfant peut aller dans la classe normale (ou sinon avoir une vision des différentes classes d'aptitudes et savoir si le développement est normal pour l'âge) (Merci à Simon et Binet en France). De ce fait, ces tests sont bien corrélés à l'aptitude scolaire générale.

Ensuite, des gens ont théorisé qu'il existait un lien statistique aux différentes composantes du test (facteur g), qui aurait peut être un lien avec l'intelligence... (mais aussi avec l'éducation reçue)

Bref, ceci n'a jamais été conçu comme un test d'intelligence, et au contraire c'est un outil très utile (même si pour des raisons plus politiques que logiques, en France, maintenant on met en vrac tout le monde dans les classes avec les résultats qu'on connaît).

Le fait que les modèles d'IA aient des bons scores reflète à mon humble avis le fait que ces tests et leurs solutions soient dans leurs données d'entraînement, ce qui leur permet de simuler une réponse intelligente sans comprendre quoique ce soit.

Si on refaisait des tests entièrement nouveaux piégés avec des énoncés inutilement longs et pleins de distracteurs, on n'aurait plus grand chose.

Edit : d'ailleurs un équivalent simple qui nous concerne, c'est de demander aux LLM prétendument supra-intelligents de coder dans un langage peu courant. Ex, en nim qui syntaxiquement s'apprend en une demi-journée tellement ça ressemble à python, pascal... Bizarrement la performance s'effondre.
0  0 
Avatar de totozor
Expert confirmé https://www.developpez.com
Le 20/08/2025 à 7:57
Citation Envoyé par Fagus Voir le message
Ces tests ont été inventés à la base il y a plus d'un siècle pour savoir si un enfant peut aller dans la classe normale (ou sinon avoir une vision des différentes classes d'aptitudes et savoir si le développement est normal pour l'âge) (Merci à Simon et Binet en France). De ce fait, ces tests sont bien corrélés à l'aptitude scolaire générale.
Donc GPT-5 est l'IA la plus apte à entrer en classe normale?
Ensuite, des gens ont théorisé qu'il existait un lien statistique aux différentes composantes du test (facteur g), qui aurait peut être un lien avec l'intelligence... (mais aussi avec l'éducation reçue)
Oui en gros des gens "intelligents" et capables de faire ces tests efficacement ont estimés qu'il mesurait l'intelligence...
Ce qui leur permettait aussi de prouver que les "bien nés" étaient naturellement plus intelligents que les autres, ce qui permet de justifier et protéger leur place sociale.
Bref, ceci n'a jamais été conçu comme un test d'intelligence, et au contraire c'est un outil très utile (même si pour des raisons plus politiques que logiques, en France, maintenant on met en vrac tout le monde dans les classes avec les résultats qu'on connaît).
Je n'ai toujours pas compris en quoi il est utile?
Il permet de refuser l'accès scolaire à certains enfants? C'est vraiment ça notre projet de société?
Le fait que les modèles d'IA aient des bons scores reflète à mon humble avis le fait que ces tests et leurs solutions soient dans leurs données d'entraînement, ce qui leur permet de simuler une réponse intelligente sans comprendre quoique ce soit.
Ce qui permet de prouver que l'IA est soit intelligente soit fait très bien semblant de l'être. Incroyable.
Je me suis exécuté (dans les deux sens du terme) pendant des années à lire des textes à voix haute à l'école pour que mes profs concluent que je sais lire. Mais scoop : je suis incapable de lire un texte à voix haute et d'en saisir le sens. Donc je faisais semblant de savoir lire, les profs concluaient que je le faisais pas si bien. Alors que je ne savais pas le faire.
Ils ont ensuite fait des contrôles avec des consignes que je suivais bien quand il n'y avait pas de piège. Donc ils on conclu que je savais lire (y compris comprendre) mais la réalité est que je ne lisais pas vraiment les consignes mais qu'elles sont tellement standard que j'extrapolais celle ci dès que j'avais suffisamment d'éléments.
Bref j'avais des problèmes de lecture que j'ai contourné assez facilement dans un système ultra codifié. Et la première fois que le système scolaire a émis des doutes sur la qualité de ma lecture était à mes 19 ans... (Alors que ma mère avait posé la question de ma dyslexie quand j'étais au CP mais "non Totozor, n'est pas bête".

Bref je ne comprends toujours pas l'utilité des tests de QI, en dehors de confirmer les biais sociétaux et prouver que l'IA s'adapte mieux que quiconque à ce genre de test.
Pro-tip : si ton enfant n'est pas bon à l'école inscrit le dans des préparations au test de QI puis demandes un diagnostic HPI (je ne sais pas quelle est l'astuce pour les nouvelles modes TDAH et spectre autistique)
Et je ne dis pas que les HPI, les TDAH ou les autistes n'existent pas, je dis juste que les bourgeois ont besoin d'une explication rassurante à leur enfant qui ne surperforme pas à l'école. Mais si ce diagnostic - fondé ou non - leur fait du bien alors tant mieux.
0  0 
Avatar de Fagus
Membre expert https://www.developpez.com
Le 20/08/2025 à 14:08
Citation Envoyé par totozor Voir le message
Je n'ai toujours pas compris en quoi il est utile?
Il permet de refuser l'accès scolaire à certains enfants? C'est vraiment ça notre projet de société?
À une époque on pensait qu'il fallait prendre en charge différemment les enfants différents en ciblant le soutien de manière adaptée à leurs difficultés. Difficultés que différents tests permettent de quantifier. Dans d'autres pays ils le font et ont des résultats...

Maintenant on abandonne souvent les enfants en difficulté dans une classe normale surpeuplée, sans aide, car il n'y a pas de budget et parce que c'est inclusif. Si en 5e il ne savent pas lire tant pis, ils passeront en 4e. L'enseignant déjà débordé n'a pas le temps de s'occuper spécifiquement d'eux.

Apparemment c'est ça notre projet actuel... mais ça n'a rien à voir avec l'utilité de outils.

Ce n'est pas parce que des gens utilisent un tournevis pour forer et se plaignent du résultat, qu'il faudrait déclarer les tournevis inutiles.
0  0 
Avatar de vieuxjeune
Futur Membre du Club https://www.developpez.com
Le 20/08/2025 à 16:38
Il y a de cela au moins une décennie, au cours d'un repas d'entreprise, je racontais l'histoire d'un client que j'avais perdu en répondant en ces termes a une de ses questions : "c'est la racine carrée de 9". sur les 10 membres de l'équipe, j'ai réalisé que 8 de mes collaborateurs n'avaient pas plus la réponse... tous entre bac+0 et bac+5... Certes pas en maths, mais tout de même des gens réputés d'intelligence normale... Bref, des fois, il n'y pas grand exploit a être plus malin que la normale...
0  0 
Avatar de gabi7756
Membre confirmé https://www.developpez.com
Le 20/08/2025 à 16:58
On peux déporter le problème ou on veut, élèves en difficultés qui sont mal accompagné. Certes c'est peut être vrai.

Le rôle des parents reste et restera prépondérant.
J'ai nombre d'ancien amis d'enfance qui sont bien loin du parcours que je fais.
Et pourtant j'ai eu un sévère retard de langage à 5 ans. Des difficultés tout le long de ma scolarité, bref j'en serai pas là aujourd'hui si je n'avais pas eu de "bon" parent.

Quand des camarades de classe s'amusait à prendre du PQ, le mouillé et faire une bataille dans les toilettes, je l'ai fait une fois => mot dans le carnet => bizarrement quand jsuis rentrée chez moi on m'as vite calmer.

Tout est une question d'éducation, quand je vais à la boulangerie : Bonjour, svp, merci , au revoir ( à minimat) ca tue personne et visiblement certaine personne / parent ne doivent pas connaître ce genre de civisme primitif

Voila a médité.
0  0 
Avatar de AllanZld
Nouveau Candidat au Club https://www.developpez.com
Le 20/08/2025 à 20:15
Tout simplement parce que GPT-5 Pro, qui est en tête des classements, est réservé aux abonnés de ChatGPT Pro, l’abonnement à 230$. Les critiques viennent des utilisateurs gratuits ou abonnés à l’offre à 20$…
0  0 
Avatar de totozor
Expert confirmé https://www.developpez.com
Le 21/08/2025 à 7:44
Citation Envoyé par gabi7756 Voir le message
Le rôle des parents reste et restera prépondérant.
J'ai nombre d'ancien amis d'enfance qui sont bien loin du parcours que je fais.
Et pourtant j'ai eu un sévère retard de langage à 5 ans. Des difficultés tout le long de ma scolarité, bref j'en serai pas là aujourd'hui si je n'avais pas eu de "bon" parent.
Je suis bien d'accord, mais c'est compliqué de dire ce que sont les bons parents. Les tiens semblaient stricts, les miens l'étaient beaucoup moins, probablement parce que ma réponse à la punition est la défiance ou l'ignorance ce qui mène à une spirale infernale.
Ce qui veut aussi dire que mes parents m'accompagnaient aussi énormément (Merci à eux!) mais que tout ça dépendait énormément de leur capacité à le faire.
Citation Envoyé par gabi7756 Voir le message
Une belle façon d'excuser le devoir des parents ca.
Le tips est bien sur sarcastique mais c'est une réalité dans ceux qui visent l'élite.
Aujourd'hui à 21 ans je me rend compte que à défaut d'avoir été diagnostiqué, je suis sûrement dislexique ( ou peut être con ca marche ausssi xD).
Bref je me suis jamais servi en excuse mes difficultés dans ma scolarité pour pas faire ce que je voulais faire, aujourd'hui ca me fais marrer les parents qui font passer 5 fois les test pour que leur gamin soit HPI, dyslexique ou tout ce que tu veux.
Ma dyslexie a été diagnostiquée à 20 ans.
Nous avons des façon différentes de réagir au diagnostique, et le mien m'a surtout permis de comprendre comment apprivoiser cette différence.
On me suggère régulièrement de passer des tests de HPI, Asperger & Co. Je les refuses parce que ces diagnostics ne m'apporteront rien, je me suis compris et me suis adapté à mes particularités.
0  0