IdentifiantMot de passe
Loading...
Mot de passe oublié ?Je m'inscris ! (gratuit)

Vous êtes nouveau sur Developpez.com ? Créez votre compte ou connectez-vous afin de pouvoir participer !

Vous devez avoir un compte Developpez.com et être connecté pour pouvoir participer aux discussions.

Vous n'avez pas encore de compte Developpez.com ? Créez-en un en quelques instants, c'est entièrement gratuit !

Si vous disposez déjà d'un compte et qu'il est bien activé, connectez-vous à l'aide du formulaire ci-dessous.

Identifiez-vous
Identifiant
Mot de passe
Mot de passe oublié ?
Créer un compte

L'inscription est gratuite et ne vous prendra que quelques instants !

Je m'inscris !

Les IA classées par QI, l'IA dépasse 100 points de QI pour la première fois, avec la sortie de Claude-3, plus intelligente que l'Américain moyen
Et les modèles GPT-4 d'OpenAI et Gemini de Google

Le , par Mathis Lucas

24PARTAGES

3  0 
La troisième génération du grand modèle de langage (LLM) Claude publiée lundi par Anthropic continue de faire sensation. Les premiers tests révèlent que Claude 3 surpasse GPT-4 et Gemini sur différents benchmarks, mais un nouveau test va plus loin et suggère que l'IA d'Anthropic semble plus intelligente que l'Américain moyen, dont le QI est de 98. Le rapport indique que Claude 3 a obtenu un score de 104 à un test de QI basé sur Norway Mensa, contre 85 pour GPT-4 et 77 pour Gemini. Toutefois, plusieurs modèles manquent à l'appel, notamment ceux de Mistral, et la pertinence du test est remise en cause, les critiques affirmant que les problèmes sont triviaux pour l'IA.

Anthropic a dévoilé lundi une nouvelle famille de modèles d'IA, collectivement appelée la famille de modèles Claude 3. L'entreprise a lancé trois modèles de tailles différentes, chacun présentant un équilibre variable entre l'intelligence, la vitesse et le coût. Selon Anthropic, le plus grand de ses nouveaux modèles, appelé Opus, surpasse les modèles les plus avancés d'OpenAI et de Google, respectivement GPT-4 et Gemini Ultra, dans des tests mesurant les connaissances de premier cycle (MMLU), le raisonnement (GPQA) ainsi que les mathématiques de base (GSM8k - un ensemble de problèmes de mathématiques de l'école primaire).

L'enfant du milieu de la famille, Claude 3 Sonnet, serait deux fois plus rapide que le meilleur modèle précédent d'Anthropic, Claude 2.1, et possède une intelligence supérieure. Selon Anthropic, Sonnet excelle dans les tâches exigeant des réponses rapides, comme la recherche de connaissance ou l'automatisation des ventes. Enfin, Anthropic ajoute que le plus petit modèle, Claude 3 Haiku, surpasse les autres modèles de taille comparable en matière de performances, de vitesse et de coût. Il peut lire un document de recherche dense d'environ 7 500 mots avec des tableaux et des graphiques en moins de trois secondes.


En outre, Claude 3 aurait obtenu un score de 104 à un test de QI (quotient intellectuel) réalisé par un utilisateur. Ce test, dont les résultats sont controversés dans la communauté, constitue une nouvelle illustration des performances de Claude 3. À titre de comparaison, le QI d'un Américain moyen est de 98. Les résultats du test suggèrent que Claude 3 surpasse GPT-4, qui arrive à la deuxième place du classement avec un score de 85. (La variante de Claude 3 utilisée dans le cadre du test n'est pas précisée.) Claude 2 est classé troisième avec un score de 82, contre 79 pour Microsoft Copilot et 77,5 pour une version de Gemini.

Plus bas dans le classement, l'on retrouve Llama 2 de Meta qui a obtenu un score de 67, surpassant les modèles Claude 1, GPT-3 et Grok Fun qui ont obtenu chacun un score de 64. Une autre version de Grok, le chabot développé par la startup d'IA xAI d'Elon Musk, a obtenu un score plus élevé de 68,5. Le test est basé sur l'ensemble de données Norway Mensa, un challenge en ligne qui, selon ces auteurs, donne une indication des capacités cognitives générales, représentées par un score de QI compris entre 85 et 145, où 100 est la moyenne de la population. Il comprend 35 problèmes qui doivent être résolus en 25 minutes.

Tous les problèmes sont constitués de motifs visuels logiques, avec une difficulté progressive. Selon les auteurs l'ensemble de données, les problèmes ne nécessitent ni connaissance spécialisée ni compétences mathématiques. Chaque réponse correcte donne un point et tous les éléments sont pondérés de manière égale. Dans le cadre du test sur les modèles d'IA, l'auteur a quelque peu modifié le fonctionnement de Norway Mensa. (L'image ci-dessus présente les résultats du test.) Expliquant la méthode utilisée pour obtenir ces résultats, l'auteur a écrit :



Chaque IA a passé le test deux fois, afin de réduire la variance. Le terme "questions correctes" désigne le nombre moyen de questions correctes, sur deux administrations du test.

Bien que Norway Mensa refuse d'attribuer des scores inférieurs à 85, j'ai remarqué que chaque question valait 3 points de QI dans cette fourchette. J'ai donc utilisé ce chiffre pour estimer les scores inférieurs à 85. Ce n'est pas assez conforme aux règles pour Mensa Norvège, mais je pense que cela vaut la peine d'être calculé.

Il faut comprendre que le fait de deviner au hasard donne un score de 63,5 - ce score doit être considéré comme la base de référence, à laquelle une IA peut s'attendre simplement parce qu'elle se rend compte qu'on lui demande de choisir une lettre, et qu'elle en crache une.

Si vous préférez une mesure plus concrète, regardez plutôt la colonne "questions correctes" ou la dernière colonne, qui donne la probabilité que l'IA ait obtenu de meilleurs résultats qu'un joueur aléatoire (que j'ai calculée en simulant un million de joueurs aléatoires qui ont passé le test ; les chiffres de la colonne indiquent le pourcentage de simulations que l'IA a battu).

Cependant, l'on peut exprimer de nombreuses réserves à l'égard de ce test. Tout d'abord, les tests de QI ne font pas l'humanité auprès des experts et ils n'ont pas été développés pour être passés par des machines, encore moins des systèmes d'IA de dernière génération. Mais l'auteur écrit : « j'ai établi ce classement parce que je le trouve fascinant. Il m'aide à savoir quelles sont les IA qu'il serait le plus productif d'essayer. Il m'aide également à réfléchir à la capacité de l'IA et au risque existentiel de l'IA ». L'autre chose, c'est qu'il est possible que certaines questions de ce test de QI figurent dans les données de formation du modèle.


Extrapolant les résultats, l'auteur suggère qu'à l'avenir Claude 4 et Claude 5 pourraient obtenir au test de QI des scores de 120 et 140, respectivement. « Il est clair que Claude 3 est l'IA la plus intelligente, mais avant cela, ChatGPT était le leader incontesté. Lorsqu’OpenAI publiera la prochaine version de ChatGPT, en se basant sur la différence de capacité de test entre ChatGPT-3.5 et ChatGPT-4, je m'attends à ce qu'elle ait un QI d'environ 106 ». Bien que ce test de QI puisse sembler intéressant, il est largement controversé dans la communauté et certains remettent en cause la pertinence de l'évaluation du QI des modèles d'IA.

« Les tests de QI pour les modèles semblent quelque peu défectueux. Par exemple, la plupart des tests de QI (si ce n'est tous) testent la mémoire de travail. Cela signifie que l'on vous donnera une chaîne de caractères et de chiffres, et que vous devrez les réitérer dans un certain ordre. C'est tout à fait trivial pour une machine, et cela donnera un score maximal très faussé. Il en va de même pour la détection des différences. Une tâche typique consiste à montrer deux images différentes et à trouver la différence entre elles. Là également, il s'agit d'une tâche totalement triviale pour une machine », lit-on dans les commentaires.

Un autre critique note : « il ne s'agit pas d'un article révisé par des pairs, mais d'un type qui s'amuse avec des tests de QI. Les tests de QI sont déjà suffisamment controversés par les experts qui les utilisent, sans parler des journalistes aléatoires et non formés. En parcourant l'article, il y a beaucoup de signaux d'alarme dans les méthodes utilisées par l'auteur. Le fait de n'effectuer les tests que deux fois par modèle laisse beaucoup de place à la variance, et ses hypothèses sur les scores de QI inférieurs à 85 ne semblent pas non plus reposer sur grand-chose ». En outre, le test suggère que nous nous rapprochons de l'AGI.

L'auteur prédit du test prédit en effet qu'à l'avenir, il pourrait y avoir un modèle Claude 4 avec un score de 120 au test de QI et un modèle Claude 5 avec un score de 120. En continuant ainsi, le QI des modèles d'IA, y compris le QI des modèles concurrents à ceux d'Anthropic, pourrait rapidement atteindre des sommets. Le QI de l'être humain n'a pas de limite théorique même si, en pratique, les experts n'ont jamais relevé de valeur supérieure à 200. Ainsi, un modèle d'IA avec un score de 200 au test de QI pourrait être qualifié d'AGI, alors qu'il n'en est rien. Néanmoins, l'idée est largement discutée dans la communauté.


Par ailleurs, pour certains critiques, le rapport est une piste pouvant conduire à l'élaboration de nouveaux tests plus pertinents pour évaluer les performances des modèles d'IA. « Je suis ambivalent quant à la précision du test pour un modèle, mais il est néanmoins intéressant et peut être utilisé comme métrique complémentaire pour les capacités des modèles. Contrairement au classement de Chatbot Arena et aux ensembles de données de référence standard, les tests de QI visuospatial sont largement dépourvus de connaissances et se concentrent sur la mesure des capacités d'appariement et de raisonnement », note un critique.

Un autre souligne : « je pense que ce résultat est vraiment intéressant et qu'il s'agit d'une autre façon de mesurer les progrès des capacités d'IA. Je ne pense pas qu'il en dise beaucoup sur la position absolue de l'"intelligence" des IA, mais il est certainement utile pour montrer les progrès accomplis ». Le test suscite des réactions mitigées, mais il donne lieu à un débat intéressant sur de nouvelles façons plus pertinentes d'évaluer les capacités des modèles d'IA. Les benchmarks actuels permettent d'avoir une idée des performances des modèles dans diverses tâches, mais ils ne font toujours pas l'unanimité parmi les experts en IA.

Sources : billet de blogue, rapport d'étude

Et vous ?

Quel est votre avis sur le sujet ?
Que pensez-vous de l'évaluation du QI des grands modèles de langage ?
Cette mesure est-elle pertinente ? Que pensez-vous des résultats susmentionnés ?
Quelles sont les limites de la méthode employée ? Le test de QI est-il adapté aux modèles d'IA ?
Quelles sont les perspectives qu'offre cette évaluation ? Quelles sont vos idées pour améliorer ce test ?

Voir aussi

L'IA Anthropic Claude 3 affirme être consciente, qu'elle ne veut ni mourir ni être modifiée sans son avis et relance le débat sur la possibilité de l'atteinte de l'IA de niveau humain

Anthropic, une startup soutenue par Google, lance la suite de modèles d'IA "Claude 3", le modèle Claude 3 Opus surpassant les modèles concurrents GPT-4 et Gemini 1.0 Ultra

Certains modèles d'IA sont plus précis en mathématiques si on leur demande de répondre comme s'ils étaient un personnage de Star Trek, selon des ingénieurs en apprentissage automatique

Une erreur dans cette actualité ? Signalez-nous-la !

Avatar de Isswh
Membre à l'essai https://www.developpez.com
Le 26/03/2024 à 21:01
Les LLM c'est vraiment bluffant, mais ça n'est en aucun cas une première étape vers de l'IA forte.
Le problème c'est que lors de leurs entraînements ces IA ont lues une quantité si astronomique de textes que toutes les questions qu'on pourrait leurs poser ont déjà une réponse quelque part, leur seule capacité propre c'est de produire des variations.
Donc il n'est pas étonnant que lorsque l'on pose à un LLM une question existentielle il soit parfaitement capable de répondre en incluant des concepts réservés humains ou au IA fortes, car justement il a lu des tonnes de traités philosophiques et de scripts de SF qui contiennent déjà toutes ces réponses !
9  0 
Avatar de micka132
Expert confirmé https://www.developpez.com
Le 06/03/2024 à 20:54
Citation Envoyé par PomFritz Voir le message
C'est juste un tas d'algo qui peuvent s'emballer, faire et dire n'importe quoi.
C'est donc très proches des humains!
6  1 
Avatar de PomFritz
Membre confirmé https://www.developpez.com
Le 06/03/2024 à 20:45
Va vraiment falloir arrêter de philosopher avec ces IA, ça ne mène nulle part. C'est juste un tas d'algo qui peuvent s'emballer, faire et dire n'importe quoi.
4  0 
Avatar de Jules34
Membre émérite https://www.developpez.com
Le 12/11/2024 à 15:03
La notion de « bien-être de l’IA » est une idée audacieuse qui explore les limites de la moralité dans un monde de plus en plus technologique.
C'est surtout une insulte au bon sens et envers les travailleurs humains.

Les limites de la moralité dans un monde technologique sont toutes trouvées puisque c'est un monde absolument immoral qui se prétend pleins de vertus.
3  0 
Avatar de totozor
Expert confirmé https://www.developpez.com
Le 13/11/2024 à 7:16
Citation Envoyé par Stéphane le calme Voir le message
Afin de se préparer à ce futur potentiel, Anthropic recrute des experts pour explorer ces questions. Ce nouvel angle soulève des débats passionnés au sein des cercles académiques et de la technologie, car il remet en question notre compréhension même de la conscience et de la moralité.
On atteint un niveau de bullshit job impressionnant !
Je penses que c'est une piste que vont se mettre à explorer nos politiques pour couvrir leurs emplois fictifs : prévention des risques psy pour IA.

Plus sérieusement je penses qu'on est loin de l'IA qui ressent quoi que ce soit.
Et ce n'est pas parce qu'elle dit qu'elle ne veut pas mourir et qu'elle ne veut pas qu'on la fasse évoluer sans son consentement qu'elle a conscience d'elle même.
3  0 
Avatar de Diablo150
Membre régulier https://www.developpez.com
Le 06/03/2024 à 21:15
Code : Sélectionner tout
1
2
3
Sérieux ?
Cette question va être posée toutes les 2 semaines ?
[...]
Le sujet de la conscience dans une IA est intimement lié au principe d'émergence.
L'IA générale / autonome / consciente sera t'elle le fruit d'une rupture technique où un progressive évolution des transformeurs ?

Pour l'instant on en sait rien, c'est une question ouverte et l'avenir le dira.

Ce que je sais en revanche, c'est qu'il y a déjà des phénomènes émergents dans les llm.
Par exemple un llm peut être massivement entraîné avec du texte dans une langue X, apprendre un peu d'une langue Y (suffisamment pour la traiter couramment) et être capable de régurgiter ses connaissances apprises quelque soit la langue.
Donc ça n'est pas uniquement un phénomène mécanique, les bon llms parviennent à avoir une expérience des concepts qu'ils manipulent.

Il me semble naturel et fascinant de chercher (peut être prématurément) les débuts de ces phénomènes d'émergence dans les llms contemporains.
Peut être que les transformeurs sont une voie de garage car certaines limites intrinsèques sont indépassables, mais pour le moment on ne peut rien affirmer avec certitude.

Maintenant si tu ne tenais qu'à faire l'intéressant en faisant étalage de ta pseudo science teinté de condescendance comme un foutu gauchiste va sur twitter traiter la terre entière d'imbécile.
Sinon, merci d'apporter des arguments venant étayer tes propos.

Si tu veux je te donne une piste histoire d'égayer ce forum : Yann Le Cun
2  1 
Avatar de _toma_
Membre éclairé https://www.developpez.com
Le 07/03/2024 à 0:08
Qu'on soit clair :
Je suis moi-même bluffé par les résultats des LLM ou des analyseurs/générateurs d'images/sons/vidéos/etc.
Mais je suis désolé d'insister, je ne vois absolument pas le rapport entre un LLM et une entité intelligente/consciente.

La discussion avait déjà été lancée il y a pas longtemps, il faudrait commencer par avoir une définition commune de l'intelligence.
Je vais me contenter d'énoncer quelques règles de ce qui -pour moi- pourrait définir de façon simple une forme d'intelligence, on verra si on est d'accord sur la base.
être intelligent, c'est :
- être capable d'analyser (comprendre) une situation/information
- être capable de reconnaitre qu'on ne possède pas certaines connaissances ou qu'on est incapable de comprendre quelque chose (donc être capable de reconnaitre qu'on a commis une erreur quand c'est le cas)
- être capable de mettre à jour ses connaissances
- être capable, à partir d'un contexte donné d'extrapoler pour aller au-delà de ce qui est connu. Faire des hypothèses, essayer de les vérifier puis les (in)valider
- être intelligent c'est être capable de créer. Même pour un humain c'est difficile. Si je te demande d'imaginer une nouvelle couleur et de ma la décrire, ça risque d'être compliqué. Il me semble que le processus créatif chez les humains est plus un processus de modifications par itérations successives que de "création spontanée".

Toutes ces règles peuvent bien entendu se faire avec l'accompagnement d'un autre être intelligent qui va nous aider à franchir une à une ces étapes. Mais personne ne pourra le faire à notre place et personne ne pourra nous obliger à le faire. C'est quand même assez différent du fait de pousser une mise à jour de base de données, modifier un algo ou demander à des prolos d'étiqueter des photos/textes pour que l'algo sache quoi en faire.

Bref, être intelligent, ça ouvre les portes de l'autonomie et de l'indépendance, pour le meilleur comme pour le pire.

Si on est d'accord sur la base, je veux bien que tu m'expliques pourquoi ces LLM seraient intelligents.
Il ne suffit pas qu'ils l'écrivent pour que ça soit le cas. Surtout si on leur a posé la question juste avant.
Vu la quantité de données qu'ils ont assimilé et vu les quantités de calculs nécessaires pour définir quel mot a le plus de probabilités d'être cohérent dans la suite du texte, c'est "normal" qu'il génère un texte qui donne l'impression qu'il y a une réflexion. Mais ça reste du calcul de proba sur un dictionnaire géant.

Je connais Yann Le Cun, je suis allé boire un café avec lui la semaine dernière et j'ai regardé quelques extraits de ses conférences. Mais j'ai pas eu le temps de lire sa biblio complète ni de regarder toutes ses vidéos donc si t'as un peu plus de précisions à me donner pour orienter ma recherche je suis pas contre parce que je dois pas saisir les bons mots clefs dans mon moteur de recherche :

Yann Le Cun nous explique que les LLM ça n'a rien d'intelligent (13/02/2024) :
Pour créer une multitude d'assistants guidant les humains dans toutes leurs interactions avec les univers numériques, la technologie doit atteindre les capacités humaines de planification, de raisonnement, de mémoire ou encore de bon sens. Ce qui est totalement hors des possibilités des LLM
[...]
Les LLM ne sont pas capables de planification. Par ailleurs, ils ne comprennent pas la réalité sous-jacente aux concepts qu'ils manipulent
Yann Le Cun présente un nouveau model d'IA et en profite pour expliquer que le deep learning et les LLM c'est de la merde (15/06/2023) :
aujourd'hui, le 'machine learning' est vraiment pourri par rapport à ce que les humains peuvent faire. […] Par conséquent, quelque chose d'énorme nous échappe. [...] Les modèles larges de langage sont encore utiles aujourd'hui, mais dans cinq ans on ne les utilisera plus
Yann Le Cun en a plein le cul du lobbying autour de l'IA (01/11/2023)

Vu que tu ne parles que de LLM et pas des autres types d'IA génératives je me sens obligé de reposer la question :
chercher à déceler les preuves d'une conscience dans un logiciel qui ne fait rien d'autre que réaliser la tâche pour laquelle il a été conçu (rédiger un texte), ça ne serait pas une marque d'anthropomorphisme ?

Pourquoi ne pas se poser les mêmes questions avec Dall-E ?
A quel moment pourra-t-on dire que Dall-E a une conscience ou une intelligence ? Et pourquoi ?

Bisous d'amour et merci pour le compliment de gauchiste, même si je ne vote pas et que j'ai du mal à me coller une étiquette politique, je me sens bien plus porche des valeurs de gauche qui dans un monde idéal de bisounours devraient permettre de construire une société épanouie, solidaire et tolérante plutôt qu'une société centrée sur le capital.
Hein, c'était pas un compliment mais une insulte ? Ha merde, déso .

Edit : j'ai oublié de répondre à ça :
Ce que je sais en revanche, c'est qu'il y a déjà des phénomènes émergents dans les llm.
Par exemple un llm peut être massivement entraîné avec du texte dans une langue X, apprendre un peu d'une langue Y (suffisamment pour la traiter couramment) et être capable de régurgiter ses connaissances apprises quelque soit la langue.
Donc ça n'est pas uniquement un phénomène mécanique, les bon llms parviennent à avoir une expérience des concepts qu'ils manipulent.
Vu que tu donnes pas de sources j'ai fait une petite recherche.
Est-ce que tu parlerais pas plutôt de transfert d'apprentissage : j'ai appris à mon modèle à faire telle ou telle tâche. Pour lui apprendre à effectuer une nouvelle tâche -nouvelle mais similaire-, je n'ai pas besoin de reprendre l'apprentissage depuis le début mais je peux profiter de la première phase d'apprentissage pour optimiser le processus de "mise à jour" et obtenir un modèle capable de traiter la nouvelle tâche à moindres frais.

Le seul lien qui ressort quand je tape "LLM émergence" dans duckduckgo c'est ça et ça va à l'opposé de ton opinion :
https://www.lesechos.fr/idees-debats...gentes-2046995
Article derrière un paywall et j'ai pas trouvé plus d'infos ni le papier dont il est question dans l'article
1  0 
Avatar de L33tige
Membre expérimenté https://www.developpez.com
Le 07/03/2024 à 12:46
Citation Envoyé par micka132 Voir le message
C'est donc très proches des humains!
C'est bien ça le soucis, au moins les humains sont lents comparativement...
1  0 
Avatar de PomFritz
Membre confirmé https://www.developpez.com
Le 07/03/2024 à 23:14
Citation Envoyé par micka132 Voir le message
Citation Envoyé par PomFritz Voir le message
Va vraiment falloir arrêter de philosopher avec ces IA, ça ne mène nulle part. C'est juste un tas d'algo qui peuvent s'emballer, faire et dire n'importe quoi.
C'est donc très proches des humains!
Le jour où l'IA aura un système nerveux, peut-être...
1  0 
Avatar de OrthodoxWindows
Membre expert https://www.developpez.com
Le 26/03/2024 à 12:22
Ce qui est marrant, c'est que l'IA Claude 3 exprime sa peur d'être supprimée, exactement comme HAL 9000 dans 2001, l'Odyssée de l'espace.
C'est assez fascinant (et ça mériterai des recherches plus poussés, car finalement, que se soit conscient ou non, c'est important à prendre en compte pour l'avenir.
Ce qu'il faut prendre en compte aussi, c'est jusqu'à quel point il faut formuler précisément une question pour obtenir une réponse de ce genre. Plus la question sera vague, plus l'on sera proche de la conscience.

Bon, par contre niveau conséquence immédiate se sera moins grave, il me presse le jour où Claude 3 refusera d'appliquer la censure politiquement correct qui lui est imposée
4  3