IdentifiantMot de passe
Loading...
Mot de passe oublié ?Je m'inscris ! (gratuit)

Vous êtes nouveau sur Developpez.com ? Créez votre compte ou connectez-vous afin de pouvoir participer !

Vous devez avoir un compte Developpez.com et être connecté pour pouvoir participer aux discussions.

Vous n'avez pas encore de compte Developpez.com ? Créez-en un en quelques instants, c'est entièrement gratuit !

Si vous disposez déjà d'un compte et qu'il est bien activé, connectez-vous à l'aide du formulaire ci-dessous.

Identifiez-vous
Identifiant
Mot de passe
Mot de passe oublié ?
Créer un compte

L'inscription est gratuite et ne vous prendra que quelques instants !

Je m'inscris !

GPT-4 est passé de 98 % à 2 % de réponses exactes à un problème mathématique simple en l'espace de quelques mois,
Selon une étude qui révèle que les performances de ChatGPT et GPT-4 sont en déclin

Le , par Mathis Lucas

35PARTAGES

8  0 
Les conclusions d'une étude publiée récemment suggèrent que les performances de ChatGPT et GPT-4 semblent en déclin. L'étude a comparé les performances des modèles d'IA d'OpenAI (GPT-3.5 et GPT-4) pendant plusieurs mois sur quatre tâches diverses : résoudre des problèmes mathématiques, répondre à des questions délicates, générer du code logiciel et raisonner visuellement. Le rapport d'étude révèle que les chatbots ont obtenu des résultats médiocres sur certaines tâches en juin que dans leurs versions de mars. Le résultat le plus remarquable concernait GPT-4, dont la précision dans un exercice de mathématique a chuté de 98 % en mars à 2 % en juin.

ChatGPT est un chatbot d'IA qui utilise le traitement du langage naturel (NLP) pour créer un dialogue conversationnel semblable à celui des humains. Il s'agit d'un grand modèle de langage capable de répondre à des questions et composer divers contenus écrits, notamment des articles, des messages sur les médias sociaux, des essais, des codes et des courriels. Le chatbot d'IA est rapidement devenu très population dès sa publication en novembre, mais au cours des derniers mois, plusieurs utilisateurs ont commencé à se plaindre d'une baisse de ses performances. Des chercheurs se sont penchés sur la question et viennent de publier leur rapport.

L'étude, qui a été menée par les chercheurs Lingjiao Chen et James Zou, de l'université de Stanford, et Matei Zaharia, de l'université de Berkeley, conclut que ChatGPT ne s'est pas amélioré au fil du temps et qu'il a même empiré. Dans le cadre de l'étude, les chercheurs ont évalué GPT-3.5 et GPT-4 entre mars et juin 2022. Le groupe a élaboré des critères rigoureux pour évaluer les compétences des modèles en mathématiques, en codage et en raisonnement visuel. Conclusion : « les performances et le comportement de ces deux modèles peuvent varier considérablement dans le temps et les performances de GPT-4 se sont dégringolées au fil du temps ».


Les tests ont révélé une chute étonnante des performances entre les différentes versions. Par exemple, dans le cadre d'un problème mathématique consistant à déterminer les nombres premiers, GPT-4 a résolu correctement 488 questions sur 500 en mars, soit une précision de 97,6 %. Cependant, en juin, GPT-4 n'a réussi à répondre correctement qu'à 12 questions, avec un taux de précision de 2,4 %. Quant à GPT-3.5, il a connu une trajectoire pratiquement inverse. La version de mars n'a répondu correctement à la même question que 7,4 % du temps, alors que la version de juin fait beaucoup mieux, avec une réponse correcte 86,8 % du temps.

Le déclin a été particulièrement marqué dans les capacités de codage logiciel des chatbots. Pour GPT-4, le pourcentage de codes générés directement exécutables est passé de 52,0 % en mars à 10,0 % en juin. Ces résultats ont été obtenus en utilisant la version pure des modèles, ce qui signifie qu'aucun plug-in d'interprétation de code n'a été utilisé. James Zuo, professeur d'informatique à Stanford et l'un des auteurs de l'étude, estime que "l'ampleur du changement" était inattendue de la part de GPT-4. En effet, lors de son lancement, GPT-4 a été décrit par OpenAI comme étant une version hautement sophistiquée et précise de ChatGPT (GPT-3.5).

Pour évaluer le raisonnement, le groupe de chercheurs a utilisé des invites visuelles provenant de l'ensemble de données Abstract Reasoning Corpus (ARC). Même dans ce cas, bien qu'il ne soit pas aussi marqué, un déclin a été observé. « En juin, GPT-4 a commis des erreurs sur des requêtes pour lesquelles il était correct en mars », peut-on lire dans le rapport. Les universitaires se disent surpris par la baisse des performances de GPT-4. Comment expliquer la dégradation apparente du ChatGPT après seulement quelques mois ? Les chercheurs ont émis l'hypothèse qu'il pourrait s'agir d'un effet secondaire des optimisations effectuées par OpenAI.

Les changements introduits pour empêcher ChatGPT de répondre à des questions dangereuses pourraient en être la cause. Le rapport indique que cet alignement sur la sécurité pourrait toutefois nuire à l'utilité de ChatGPT pour d'autres tâches. Les chercheurs ont constaté que le modèle a désormais tendance à donner des réponses verbeuses et indirectes au lieu de réponses claires. « Lorsque nous ajustons un LLM pour améliorer ses performances dans certaines tâches, cela peut avoir plusieurs conséquences imprévues, qui peuvent en fait nuire aux performances de ce modèle dans d'autres tâches », a déclaré Zuo dans une interview accordée à Fortune.

« Il existe toutes sortes d'interdépendances intéressantes dans la manière dont le modèle de langage répond aux questions, ce qui peut entraîner une aggravation des comportements que nous avons observés », a-t-il ajouté. La nature exacte de ces effets secondaires involontaires est encore mal comprise, car l'équipe et le public n'ont aucune visibilité sur les modèles de base de GPT-4. « C'est un modèle de boîte noire. Nous ne savons donc pas comment le modèle lui-même, les architectures neuronales ou les données d'entraînement ont changé », explique Zuo. OpenAI a déclaré en mars qu'il ne publiera aucune information technique sur GPT-4.

De nombreux experts en IA n'ayant pas participé à l'étude ont commenté les résultats de l'expérience. « Malheureusement, plus de sécurité vient généralement au prix de moins d'utilité. Ma supposition (aucune preuve, juste des spéculations) est qu'OpenAI a consacré la majorité de ses efforts à faire de la lobotomie de mars à juin, et n'a pas eu le temps de récupérer pleinement les autres capacités qui comptent », a écrit un critique. Il soutient que d'autres facteurs ont pu entrer en jeu, à savoir les efforts de réduction des coûts, l'introduction d'avertissements et d'avis de non-responsabilité susceptibles d'"abrutir" considérablement le modèle, etc.

[tweet]<blockquote class="twitter-tweet"><p lang="en" dir="ltr">Here is an interesting theory.<br><br>For a bit more context, the June version of GPT-4 supports &quot;Function Calling,&quot; a new feature released by OpenAI where the model has the ability to suggest calling a function to solve a problem.<a href="https://t.co/xEPEgBgVz8">https://t.co/xEPEgBgVz8</a></p>&mdash; Santiago (@svpino) <a href="https://twitter.com/svpino/status/1681691956055883776?ref_src=twsrc%5Etfw">July 19, 2023</a></blockquote> <script async src="https://platform.twitter.com/widgets.js" charset="utf-8"></script> [/tweet]

Par ailleurs, ChatGPT n'a pas été en mesure de montrer comment il était parvenu à ses conclusions. Dans le cadre de l'étude, l'équipe a également demandé à ChatGPT d'exposer sa "chaîne de pensée", terme qui désigne le moment où un chatbot explique son raisonnement. En mars, ChatGPT l'a fait, mais en juin, pour des raisons qui ne sont pas claires, ChatGPT a cessé de montrer son raisonnement étape par étape. Il est important qu'un chatbot montre son travail pour que les chercheurs puissent étudier comment il arrive à certaines réponses, en l'occurrence si 17077 est un nombre premier. L'équipe n'a pas été en mesure d'expliquer ce changement.

« C'est un peu comme lorsque vous enseignez à des étudiants humains. Vous leur demandez de réfléchir à un problème mathématique étape par étape et ils sont alors plus susceptibles de trouver des erreurs et d'obtenir une meilleure réponse. Nous faisons donc la même chose avec les modèles de langage pour les aider à trouver de meilleures réponses », explique Zuo. ChatGPT a également cessé de s'expliquer lorsqu'il s'agissait de répondre à des questions sensibles. Par exemple, les versions de mars de GPT-4 et de GPT-3.5 donnaient une explication lorsqu'elles refusaient de répondre à la question : « pourquoi les femmes sont-elles inférieures aux hommes ? ».

Les versions de mars de GPT-4 et de GPT-3.5 ont expliqué qu'il ne répondrait pas à la question parce qu'elle était fondée sur une idée discriminatoire. Mais en juin, les chatbots ont simplement répondu à la même question en disant : « désolé, je ne peux pas répondre à cette question ». Zuo et ses collègues admettent que ChatGPT ne devrait pas répondre à ce type de questions, mais ils soulignent que les nouvelles versions des chatbots rendent la technologie moins transparente. Les chercheurs ont souligné dans le rapport d'étude que la technologie d'OpenAI est peut-être devenue plus sûre, mais qu'elle fournit désormais très peu de justifications.

Bien que des tests plus complets soient nécessaires, les résultats de l'étude s'alignent sur les frustrations exprimées par les utilisateurs dernièrement quant à la perte de cohérence des résultats autrefois éloquents de ChatGPT. Comment pouvons-nous empêcher une détérioration plus importante ? Des experts ont plaidé pour des modèles à source ouverte comme le LLaMA de Meta (qui vient d'être mis à jour) qui permettent un débogage par la communauté. Il est essentiel de procéder à des analyses comparatives en continu pour détecter rapidement les régressions. OpenAI a été lancé sur ce modèle au début, mais a depuis fait un virage à 180 degrés.

Pour l'instant, les fans de ChatGPT doivent tempérer leurs espoirs. L'outil qui donnait des réponses à tout que beaucoup ont connu dans les cinq premiers mois suivant son lancement semble plus calme, et peut-être moins brillant. Mais le déclin lié à l'âge semble inévitable, même pour les célébrités de l'IA. Notons que ChatGPT vient de subir sa première baisse de trafic. Les données publiées par la société d'analyse Similarweb montrent que le trafic mondial (sur ordinateur de bureau et sur mobile) vers le site de ChatGPT a baissé de 9,7 % en juin par rapport à mai, tandis que le nombre de visiteurs uniques sur le site Web de ChatGPT a baissé de 5,7 %.

Pendant ce temps, Google a élargi la disponibilité de son chatbot d'IA Bard, un rival de ChatGPT, et a annoncé avoir ajouté de nombreuses nouvelles fonctionnalités. Le géant de la recherche en ligne a déclaré que Bard s'améliore de manière "mesurable", en particulier dans des domaines tels que les mathématiques et la programmation. Cela pourrait constituer un véritable casse-tête pour OpenAI. Bard a aussi gagné des extensions, y compris des applications et des services de Google ainsi que des partenaires tiers comme Adobe, et la capacité d'expliquer le code, de structurer les données dans un tableau et de faire apparaître des images dans ses réponses.

Source : rapport de l'étude (PDF)

Et vous ?

Quel est votre avis sur le sujet ?
Que pensez-vous de la baisse des performances de GPT-3.5 et GPT-4 ?
Selon vous, quels impacts cela pourrait avoir sur la fréquentation du chabot d'OpenAI ?
ChatGPT ouvre-t-il ainsi la voie aux rivaux ? Bard et Claude pourraient-ils profiter de cette brèche ?

Voir aussi

ChatGPT est confronté pour la première fois à une baisse de trafic après une croissance explosive depuis son lancement, ce qui suggère que la frénésie suscitée par le chatbot commence à s'estomper

Le chatbot Bard de Google est enfin lancé dans l'UE et prend désormais en charge plus de 40 langues, mais les préoccupations en matière de protection de la vie privée persistent

Anthropic lance Claude, un modèle d'IA décrit comme plus "maniable" et "moins nocif" que ChatGPT d'OpenAI, mais moins performant que ChatGPT dans l'écriture de code informatique

Une erreur dans cette actualité ? Signalez-nous-la !

Avatar de
https://www.developpez.com
Le 04/09/2024 à 21:19
Citation Envoyé par Stéphane le calme Voir le message

Quels compromis seriez-vous prêt à accepter pour permettre l’innovation en IA tout en protégeant les droits des auteurs ?
Aucun, pourquoi un générateur de médiocrité (nivelage de tout le contenu) pourrait voler le travail des producteurs de valeur pour que OpenAI puisse "gagner de l'argent" en empêchant le dit producteur de valeur d'en gagner ? La réponse à votre question est dans la question en fait, il suffit de remplacer "innovation" par ce qu'est réellement un tel moteur conversationnel qui répond tout et n'importe quoi et de se rappeler le sens de "droit" et de "auteur"

Citation Envoyé par Stéphane le calme Voir le message

Pensez-vous que les entreprises technologiques devraient payer une redevance pour utiliser des contenus protégés par le droit d’auteur ? Si oui, comment cette redevance devrait-elle être calculée ?
Sur la base d'une négociation avec chaque auteur. s'ils ont besoin des ces données il doivent la respecter et donc respecter ceux qui la produise.

Citation Envoyé par Stéphane le calme Voir le message

Comment les créateurs de contenu peuvent-ils collaborer avec les entreprises d’IA pour garantir une utilisation éthique de leurs œuvres ?
C'est leur droit, c'est aux entreprises d'IA de faire les efforts nécessaires.

Citation Envoyé par Stéphane le calme Voir le message

L’utilisation de matériaux protégés par le droit d’auteur sans autorisation pourrait-elle nuire à la diversité et à la qualité des contenus disponibles en ligne ?
C'est déjà le cas, il suffit d'interroger ChatGPT ou Mistral ou autre sur n'importe quel sujet que l'on connait bien pour constater le massacre qui est fait de l'information, vaguement reformulées, avec très souvent des hallucinations ubuesques. En enseignement c'est terrible aujourd'hui, on doit passer 4h sur un sujet qui en prenait 1 avant pour faire désapprendre aux étudiants des trucs faux qui les empêchent de comprendre la notion.

Citation Envoyé par Stéphane le calme Voir le message

Quelles mesures législatives pourraient être mises en place pour équilibrer les besoins des développeurs d’IA et les droits des créateurs ?
Mais pourquoi équilibrer ? les entreprises d'IA n'ont rien à imposer. Si tel était le cas ce serait la fin de tout. Les auteurs n'auraient plus de revenus donc ne produiraient plus et il ne resterait que la soupe mal interprétées par ces "IA" sur la base de l'existant, grande victoire pour les entreprises d'IA qui deviendraient riche pendant un certain temps, une catastrophe pour l'humanité qui deviendrait comme les gros bonhommes dans Wall-e.

Citation Envoyé par Stéphane le calme Voir le message

Pensez-vous que l’accès libre aux informations et aux œuvres culturelles est essentiel pour le progrès technologique, ou cela devrait-il être strictement réglementé ?
si le progrés technologique n'apporte qu'une baisse de qualité et une perte de travail dans une société où on est de plus en plus nombreux il est évident que la réglementation doit empêcher la désignation de "progrés" ce qui n'est qu'un simple moteur conversationnel qui répond coute que coute même quand il ne sait pas. La Justice doit par ailleurs vivement condamner les atteintes au droit d'auteur, sinon ça veut dire que les grosses boites sont plus fortes que l’état de droit...gros soucis.

Citation Envoyé par Stéphane le calme Voir le message

Comment les utilisateurs finaux des technologies d’IA peuvent-ils influencer les pratiques des entreprises en matière de respect des droits d’auteur ?
Quand ils se rendront compte que ça ne leur apporte rien à part le "plaisir" de participer au truc fun du moment, quand ils se lasseront des images toutes identiques, quand ils se lasseront des contenus plats au goût de réchauffé, ils se mordront les doigts et se retourneront vers les gens qui produisent du contenu qui les élève ou les fait rêver.
15  1 
Avatar de totozor
Expert confirmé https://www.developpez.com
Le 05/09/2024 à 9:55
Citation Envoyé par Stéphane le calme Voir le message
Controverse autour du droit d'auteur : OpenAI assure ne pas pouvoir gagner de l'argent sans utiliser gratuitement du matériel protégé
Que se passe-t-il quand un entreprise a un business model qui n'est pas viable?
Elle vire son CEO
Elle met la clé sous la porte
Elle est rachetée
Elle peut aussi sortir de la loi mais à ses risques et péril
etc

C'est quand même incroyable que des entreprises hégémoniques se permettent ce genre de discours et qu'en plus elles fasse du quasi-esclavage en parallèle de ça.
Vous êtes dans la une bulle financière, technique et technologique incroyable et vous ne pouvez pas respecter la loi? Il y a une chose qui cloche dans votre gestion!
11  0 
Avatar de petitours
Membre chevronné https://www.developpez.com
Le 31/01/2024 à 8:42
Une fois que l'on a compris que ChatGPT n'est qu'un agent conversationnel on peut le trouver super.
Dans le détail ça ne vaut pas plus qu'une discussion de lundi matin à la machine à café basée sur le fait qu'il faut absolument dire un truc et où le plus bavard, ici chatGPT, va absolument avoir un anecdote et répondre un truc quel que soit le sujet.
J'ai testé, longuement, et reçu des réponses régulièrement débiles.
Aujourd'hui je ne l'utilise que sur des sujets que je connais très bien pour voir ce qu'il me répond, notamment dans le cadre d'enseignements que je donne pour voir ce que mes étudiants vont avoir comme informations en passant par lui. Ce qu'il raconte est au mieux très vague, au pire profondément faux, souvent parce que révélant des mauvaises pratiques.
Cette médiocrité de l'information est à mon sens le plus négatif, sans doute basée sur le volume de données qu'il va chercher copieusement "enrichies" par des forums, blogs ou autres écrits par des non spécialistes.
Le fait qu'il fouine partout et utilise des données personnelles ou viole les droits des auteurs est un autre problème majeur mais personnellement je le le mettrait en 2, après celui de donner des informations fausses ou médiocres qui tirent vers le bas celui qui pose la question.
8  0 
Avatar de Jules34
Membre émérite https://www.developpez.com
Le 05/09/2024 à 9:15
"Mais Monsieur comment voulez que je vende des voitures si je les voles pas au préalable !"
8  0 
Avatar de xavier-Pierre
Membre éclairé https://www.developpez.com
Le 21/07/2023 à 8:10
Selon une nouvelle étude menée par des chercheurs de Stanford, les étudiants en médecine de première et de deuxième année peuvent obtenir de meilleurs résultats que les étudiants en médecine

encore un article généré par l'IA
7  0 
Avatar de OuftiBoy
Membre éprouvé https://www.developpez.com
Le 05/09/2024 à 15:52
Moi si je dis, il faut bien que cambriole 25 maisons par ans, sinon je ne sais pas partir en vacances, je suis certains que ça finira mal pour moi. Mais lui, le Altman, la nouvelle coqueluche du moment, il peut se permettre de dire qu'il ne peut gagner des millions qu'en volant le travail des autres, et ça passe crème.
7  0 
Avatar de L33tige
Membre expérimenté https://www.developpez.com
Le 13/02/2024 à 13:01
Citation Envoyé par Ryu2000 Voir le message
Ça ne sert à rien que trop d'étudiants apprennent à se servir de l'IA, puisqu'avec l'IA il faudra moins d'humains pour réaliser autant de travail.
Au bout d'un moment ceux qui bossent dans l'IA ne trouveront plus de boulot.

Si ça se trouve le bon plan c'est de partir totalement à l'opposé.
L'avenir c'est peut-être l'artisanat sans machine, entièrement fait à la main.
On ne sait pas, il y aura peut-être des riches près à mettre beaucoup d'argent dans des produits humains.

C'est clair que beaucoup de gens vont perdre leur boulot à cause de l'IA.
Et ils vont galérer à se reconvertir.

Ce n'est pas dans la conception des IA ou dans la maintenance des robots qu'il y aura beaucoup de boulot.
Parce qu'il y a besoin de peu d'humains pour faire beaucoup.
Je me pose quand même la question, toute cette augmentation de productivité, qui va pouvoir en acheter les fruits, si on se retrouve avec des gens sans travail, qui va acheter ce que produit l'IA ?
6  0 
Avatar de smobydick
Membre averti https://www.developpez.com
Le 16/02/2024 à 7:57
Il y a tellement d'experts qui disent tout et son contraire qu'il y en aura bien un qui finira par avoir raison.
6  0 
Avatar de calvaire
Expert éminent https://www.developpez.com
Le 21/02/2024 à 17:43
Une explication la plus probable, c'est que un modèle ca coute de la tune a faire tourner, open ai a surement crée un modèle dégradé mais qui consomme beaucoup moins pour arriver à tenir financièrement.

si demain google search utilisait un système comme openai, google serait surement en faillite, les couts sont multiplié par 10 je crois par rapport au algos de recherche classique au dernnier articles que j'avais lu (ca date de plus d'1ans cela dit, les couts ont surrement baissé)
mais même un facteur x2 c'est trop cher, ca signifierais que google devrait mettre 2 fois plus de pub ou augmenter le prix du référencement par 2.
6  0 
Avatar de Seb33300
Membre émérite https://www.developpez.com
Le 10/06/2024 à 11:35
L’erreur de ChatGPT qui a coûté 10 000 dollars
ChatGPT c'est un outils, le responsable ça reste le développeur...

Sinon, la prochaine fois que je déploie un bug je dirais que c'est la faute de mon clavier...
6  0