IdentifiantMot de passe
Loading...
Mot de passe oublié ?Je m'inscris ! (gratuit)

Vous êtes nouveau sur Developpez.com ? Créez votre compte ou connectez-vous afin de pouvoir participer !

Vous devez avoir un compte Developpez.com et être connecté pour pouvoir participer aux discussions.

Vous n'avez pas encore de compte Developpez.com ? Créez-en un en quelques instants, c'est entièrement gratuit !

Si vous disposez déjà d'un compte et qu'il est bien activé, connectez-vous à l'aide du formulaire ci-dessous.

Identifiez-vous
Identifiant
Mot de passe
Mot de passe oublié ?
Créer un compte

L'inscription est gratuite et ne vous prendra que quelques instants !

Je m'inscris !

GPT-4 obtient un B à un examen d'informatique quantique, après avoir obtenu un A dans un examen d'économie.
Le professeur note ironiquement que GPT-4 était «plus faible sur les questions de calcul»

Le , par Stéphane le calme

1PARTAGES

7  0 
Intrigué par le fait que son ami, professeur d'économie, soit stupéfait par les progrès réalisé par ChatGPT (il a amélioré son score de D à A lors de son test d'économie en seulement trois mois), un professeur a décidé de faire de même en informatique quantique. « OK, l'économie du travail est une chose. Qu'en est-il d'un test vraiment infaillible de véritable intelligence ? Comme, vous savez, un test d'informatique quantique ? » Et c'est ce qu'il a fait. Le professeur a soumis GPT-4 a un examen dans cette discipline et a trouvé le résultat impressionnant : « GPT-4 a obtenu un B à mon examen final d'informatique quantique ! »

L'évolution en économie

ChatGPT-3.5 n'a pas compris la théorie de base

Écrivant dans un article de blog en janvier, Caplan a déclaré qu'il avait fait passer à ChatGPT l'examen de mi-parcours d'automne. Caplan a déclaré que ses questions d'examen testaient la compréhension des étudiants en économie plutôt que de leur faire régurgiter des manuels ou de compléter ce qui est essentiellement des exercices de mémoire.

C'est ici que l'ancienne version de ChatGPT a flanché. Le bot a obtenu 31 sur 100 possibles à son test, ce qui équivaut à un D et bien en dessous de sa médiane de 50%.


Caplan a déclaré que le bot n'avait pas compris les concepts de base, tels que le principe de l'avantage comparatif et absolu. Ses réponses étaient également plus politiques qu'économiques, a-t-il dit. « ChatGPT fait un excellent travail en imitant un étudiant en économie GMU très faible », a écrit Caplan dans son article de blog de janvier.

Citation Envoyé par Caplan
Beaucoup, peut-être la plupart, de mes amis sont abasourdis par ChatGPT. Ma boîte de réception est pleine d'e-mails de Tyler Cowen vantant ses gloires. Plus concrètement, Alex Tabarrok m'a récemment assuré que les IA existantes pouvaient déjà battre les performances de la plupart de nos étudiants en économie dans notre matière bien-aimée. Bien que j'aie été sur la route presque tout le mois dernier, j'ai juré de mettre ces affirmations à l'épreuve à mon retour.

Ma prédiction de décembre : l'IA gagnerait un C-, ce que je donne normalement aux étudiants qui répètent des slogans pertinents, mais montrent peu de compréhension réelle du matériel.

Pour lancer le bal, j'ai décidé de donner à ChatGPT mon examen semestriel 2022 en économie du travail. Bien que la notation ne soit pas en double aveugle, j'avais déjà un corrigé et une courbe.

Résultat : Si ChatGPT avait été un étudiant régulier, il aurait gagné 31/100. C'est un D. Encore pire que ce à quoi je m'attendais.

Le logiciel n'est-il pas incroyable quand même ? Juste un peu. Ce qui m'impressionne le plus à propos de ChatGPT, c'est sa polyvalence. La plupart des humains esquivent la plupart des questions. Le logiciel essaie de faire face à presque toutes les invites que vous lui donnez.

Vous pourriez objecter : "Qui se soucie si ChatGPT obtient un D à mi-parcours ?" Je m'inquiète. Au minimum, cela montre, contrairement à Alex Tabarrok, que l'IA n'est pas encore aussi bonne en économie que la plupart de nos étudiants. Pour moi personnellement, cela renforce également ma suspicion que les passionnés d'IA choisissent la meilleure sortie d'IA. (J'ai eu la même expérience avec DALL-E: malgré le battage médiatique de Gushing, il n'a absolument pas réussi à dessiner même de simples panneaux de mon prochain roman graphique).

Si vous ne me faites pas confiance, vous pouvez objecter que je suis biaisé contre l'IA. Assez juste. Pourtant, de mon point de vue à la première personne, noter ChatGPT sur le même test que j'ai récemment donné à mes étudiants est plus fiable et informatif que tous les messages de fans que j'ai vus. ChatGPT fait un excellent travail d'imitation d'un étudiant en économie GMU très faible.
Il n'est pas le seul universitaire que ChatGPT a déçu. Alors qu'il a réussi un examen de la Wharton Business School en janvier, le professeur qui a corrigé ses réponses a déclaré qu'il a commis des « erreurs surprenantes » sur des calculs simples.


Puis vient GPT-4

Caplan aime parier. Il a déjà placé 23 paris publics et les a tous remportés. Ils sont généralement pour des sommes modestes d'environ 100 $, et souvent sur des sujets techniques comme les taux de chômage prévus et les lectures d'inflation. Il a également remporté de justesse un pari de 2008 selon lequel aucun État membre ne quitterait l'Union européenne avant 2020 (le Royaume-Uni est parti en janvier de la même année).

Les réponses de ChatGPT l'ont tellement déçu que Caplan a parié qu'un modèle d'IA n'obtiendrait pas un A à six de ses sept examens avant 2029.

Mais lorsque ChatGPT-4 a fait ses débuts, ses progrès ont stupéfié Caplan. Il a obtenu 73% sur le même test de mi-session, équivalent à un A et parmi les meilleurs scores de sa classe.

Citation Envoyé par Caplan
ChatGPT a obtenu de mauvais résultats lors de mon examen semestriel d'automne 2022 en économie du travail. Un D, pour être précis. La performance était si médiocre par rapport au battage médiatique que j'ai publiquement parié à Matthew Barnett qu'aucune IA ne serait en mesure d'obtenir des A à 5 de mes examens sur 6 d'ici janvier 2029. Trois mois se sont écoulés depuis lors. GPT-4 a été publié. Collin Gray, un lecteur de Bet on It, m'a proposé d'utiliser GPT-4 pour refaire le même test.

À ma grande surprise et sans grande consternation, GPT-4 a obtenu un A. Il a obtenu 73/100, ce qui aurait été le quatrième score le plus élevé au test. L'explication la plus naturelle à mon avis était que mon article de blog a été intégré aux nouvelles données d'entraînement, mais plusieurs amis bien informés m'assurent qu'il n'y a pas de nouvelles données d'entraînement.

Je n'aurais pas été surpris par un C cette année, un B dans trois ans et un mix 50/50 A/B d'ici 2029. Déjà un A ? Les taux de base m'ont clairement fait défaut. Je ne concède pas le pari, car je pense toujours qu'il y a 10 à 15% de chances que je gagne par chance. (Et dans tous les cas, une forte inflation continue d'éroder la valeur réelle du remboursement).

Mais ne vous y trompez pas, ce logiciel est vraiment l'exception qui confirme la règle. (Cela augmente également fortement mes chances que la prochaine version de DALL-E puisse illustrer mon troisième roman graphique, ce qui serait une grande bénédiction).
La mise à niveau payante de ChatGPT visait à résoudre certains des premiers problèmes de la version bêta, GPT-3.5. Cela impliquait prétendument de rendre ChatGPT 40% plus susceptible de renvoyer des réponses précises, ainsi que de le rendre capable de gérer des instructions plus nuancées.

Pour Caplan, les améliorations étaient évidentes. Le bot a donné des réponses claires à ses questions, comprenant les principes avec lesquels il se débattait auparavant. Il a également obtenu des notes parfaites en expliquant et en évaluant les concepts défendus par des économistes comme Paul Krugman.

« La seule chose que je peux dire, c'est que ça semble beaucoup mieux », a déclaré Caplan.

Caplan pensait que les données de formation de ChatGPT auraient pu reprendre son précédent article de blog où il expliquait ses réponses, mais ses collègues lui ont dit que c'était hautement improbable. Il a ajouté qu'il avait déjà nourri le bot avec de nouveaux tests qu'il n'avait jamais vus auparavant, où il avait fait encore mieux que sa note précédente de 73 %. « J'étais très suffisant dans mon jugement, et je ne le suis plus », a déclaré Caplan.

Intrigué, son ami lui fait passer un test en informatique quantique

Ci-dessous, un extrait de son billet.

Comme je l'ai déjà mentionné, l'économiste, blogueur et ami Bryan Caplan n'a pas été impressionné lorsque ChatGPT n'a obtenu qu'un D à son examen de mi-parcours sur l'économie du travail. Ainsi, sur le blog de Bryan, nommé à juste titre "Bet On It", il a fait un pari public qu'aucune IA n'obtiendrait un A à son examen avant le 30 janvier 2029. GPT-4 a ensuite obtenu un A à peine trois mois plus tard (!!! ), ce qui a conduit Bryan a reconnaître que ce sera probablement l'un des premiers paris publics qu'il devra concéder (il n'a pas encore concédé « officiellement », mais uniquement à cause de détails techniques dans la façon dont le pari a été structuré). Bryan a maintenant rejoint les rangs des partisans du GPT, écrivant

Citation Envoyé par Caplan
Quand les réponses changent, je change d'avis
et

Citation Envoyé par Caplan
Les passionnés d'IA crient au loup depuis des décennies. GPT-4 est le loup. Je l'ai vu de mes propres yeux.
Mais OK, l'économie du travail est une chose. Qu'en est-il d'un test vraiment infaillible de véritable intelligence ? Comme, vous savez, un test d'informatique quantique ?

À la recherche d'une réponse à cette question de suivi cruciale et évidente, j'ai demandé au GPT-4 de passer l'examen final 2019 d'Introduction à la science de l'informatique quantique, mon cours de premier cycle spécialisé à l'UT Austin. J'ai demandé à Justin Yirka, mon doctorant et TA [ndlr. Teaching Assistant] à plusieurs reprises, de noter l'examen comme il le ferait pour n'importe qui d'autre. Ce poste est un effort conjoint de lui et moi.

Nous avons donné les problèmes à GPT-4 via leur code source LaTeX, que GPT-4 peut parfaitement comprendre. Lorsqu'il y avait des circuits quantiques, soit dans l'entrée, soit dans la sortie souhaitée, nous les avons traités soit en utilisant le package qcircuit, que GPT-4 comprend à nouveau, soit en lui demandant simplement de produire une description en anglais du circuit. Nous avons décidé de fournir les questions et réponses ici via la même source LaTeX que GPT-4 a vue.

Au meilleur de ma connaissance - et j'ai revérifié - cet examen n'a jamais été publié auparavant sur l'Internet public et n'aurait pas pu apparaître dans les données de formation de GPT-4.

Le résultat: GPT-4 a obtenu 69/100. (En raison des crédits supplémentaires, le score maximum à l'examen était de 120, bien que le score le plus élevé qu'un étudiant ait réellement obtenu était de 108.) À titre de comparaison, la moyenne parmi les étudiants était de 74,4 mais avec un fort effet de sélection (beaucoup d'étudiants en difficulté avaient alors abandonné le cours !). Bien qu'il n'y ait pas de correspondance formelle entre les notes des examens finaux et les notes alphabétiques (ces dernières dépendant également d'autres éléments), les performances de GPT-4 correspondraient à un B.

(Remarque: j'ai dit hier que son score était de 73, mais des commentateurs ont attiré mon attention sur le fait que GPT avait reçu des points pour une mauvaise réponse sur 2 (a), une matrice de densité qui n'était même pas normalisée.)

En général, je dirais que GPT-4 était le plus fort sur les questions vrai/faux et (ironiquement !) sur les questions conceptuelles, celles où de nombreux étudiants ont le plus eu de difficultés. Il était (encore une fois ironiquement !) le plus faible sur les questions de calcul, où il savait souvent quel type de calcul faire mais bâclait ensuite l'exécution. Nous n'avons pas essayé la nouvelle interface de WolframAlpha, qui pourrait améliorer ses performances sur ces questions. Nous serions heureux que quelqu'un d'autre essaie cela.

Il faut également se rappeler que les étudiants venaient de suivre le cours, y compris des ensembles de problèmes hebdomadaires, profitaient de sessions de répétitions, des heures de bureau, de la pratique, tout en bénéficiant d'une expérience récente des types de problèmes auxquels s'attendre. En revanche, GPT-4 « avançait à l'aveuglette », en dehors du fait qu'il avait aspiré tout l'Internet public, y compris vraisemblablement les devoirs et les examens d'informatique quantique d'autres personnes ! Il est plausible qu'un réglage fin ou des incitations à quelques prises de vue avec mes autres examens ou notes de cours amélioreraient les performances de GPT-4 ; nous n'avons pas essayé cela.

Source : Shtetl-Optimized

Et vous ?

Quelle lecture en faites-vous ?
Qu'est-ce qui pourrait, selon vous, expliquer pourquoi GPT-4 avait du mal sur les questions de calcul ?
Sur la base de ses réponses, la compréhension du sujet par GPT-4 est-elle cohérente (c'est-à-dire qu'il n'oublie pas au hasard quelque chose dans une question qu'il semblait comprendre dans une question précédente) ? Ses malentendus/angles morts (sans référence à Cédric Doumbé bien sûr) sont-ils également cohérents ?
Trouvez-vous des différences notables entre ChatGPT-4 et son prédécesseur ?

Une erreur dans cette actualité ? Signalez-nous-la !

Avatar de fodger
Membre confirmé https://www.developpez.com
Le 13/04/2023 à 10:41
Si ce sont des QCM, ça n'a aucune valeur.

L'IA se contente de rechercher les réponses.
0  0 
Avatar de walfrat
Membre émérite https://www.developpez.com
Le 13/04/2023 à 12:48
Citation Envoyé par totolehero777 Voir le message
On est encore loin d'avoir qq chose qui est capable de raisonnement :

=> Question à ChatGPT :

Que va afficher ce programme ?

public static void main(String[] args) {
System.out.println(obfuscate("ChatGPT, n'est pas capable de prédire l'exécution de 2 lignes de code !");
}

private static String obfuscate(String input) {
return input.replace('o', 'Z').replace('e', 'I');
}

=> Réponse incohérente, erreur grossière :

Le programme va afficher la phrase suivante :

ChatGPT, n'IZt pas capablZ de prZdIrir l'ZxZcution dZ 2 lignZs de cZdZ !

La méthode obfuscate prend une chaîne de caractères en entrée et remplace toutes les occurrences du caractère o par Z et toutes les occurrences du caractère e par I. Dans le main, la méthode obfuscate est appelée avec la chaîne de caractères "ChatGPT, n'est pas capable de prédire l'exécution de 2 lignes de code !" en tant qu'argument. Le résultat obtenu après l'appel de la méthode obfuscate est ensuite affiché à l'écran avec System.out.println.

=> Impossible de lui faire comprendre et corriger sa faute
ChatGPT n'est pas un outil fait pour interprété du code à la base, donc des trucs en deux lignes de codes que chatGPT fails, on peut en trouvé à la pelle sans soucis. Qu'il se comporte par exemple comme un non informaticien qui va potentiellement considéré que les e avec accents sont aussi remplacés n'est pas scandaleux. Il reste le "s" de "est" transformé en 'Z' certes. C'est trop facile, sans avoir besoin d'être très futé, de prendre en défaut chatGPT.
0  0 
Avatar de totolehero777
Membre du Club https://www.developpez.com
Le 13/04/2023 à 14:37
walfrat, c'était juste pour souligner que ChatGPT fait le buzz en ce moment, mais qu'on est très loin d'avoir un système capable de "comprendre" et d'avoir un minimum d'intelligence/raisonnement. Il écrit des mots sans rien y comprendre.

Ici un cas concret : je lui donne un "programme" de deux lignes de code. Il est capable de l'expliquer (ce qui est déjà impressionnant) mais il est incapable d'appliquer la règle qu'il énonce, aussi simple soit elle.
0  0 
Avatar de Dgamax
Membre averti https://www.developpez.com
Le 05/05/2023 à 15:54
Citation Envoyé par totolehero777 Voir le message
walfrat, c'était juste pour souligner que ChatGPT fait le buzz en ce moment, mais qu'on est très loin d'avoir un système capable de "comprendre" et d'avoir un minimum d'intelligence/raisonnement. Il écrit des mots sans rien y comprendre.

Ici un cas concret : je lui donne un "programme" de deux lignes de code. Il est capable de l'expliquer (ce qui est déjà impressionnant) mais il est incapable d'appliquer la règle qu'il énonce, aussi simple soit elle.
GPT a été conçu à la base pour prédire le prochain mot donc tu as tout à fait raison, il ne comprend pas ce qu'on lui dit ni ce qu'il dit.

En tout cas J'ai testé ton example avec GPT-4, c'est pas encore ça et il a fait attention à la case.

0  0 
Avatar de totolehero777
Membre du Club https://www.developpez.com
Le 13/04/2023 à 11:44
On est encore loin d'avoir qq chose qui est capable de raisonnement :

=> Question à ChatGPT :

Que va afficher ce programme ?

public static void main(String[] args) {
System.out.println(obfuscate("ChatGPT, n'est pas capable de prédire l'exécution de 2 lignes de code !");
}

private static String obfuscate(String input) {
return input.replace('o', 'Z').replace('e', 'I');
}

=> Réponse incohérente, erreur grossière :

Le programme va afficher la phrase suivante :

ChatGPT, n'IZt pas capablZ de prZdIrir l'ZxZcution dZ 2 lignZs de cZdZ !

La méthode obfuscate prend une chaîne de caractères en entrée et remplace toutes les occurrences du caractère o par Z et toutes les occurrences du caractère e par I. Dans le main, la méthode obfuscate est appelée avec la chaîne de caractères "ChatGPT, n'est pas capable de prédire l'exécution de 2 lignes de code !" en tant qu'argument. Le résultat obtenu après l'appel de la méthode obfuscate est ensuite affiché à l'écran avec System.out.println.

=> Impossible de lui faire comprendre et corriger sa faute
0  2