IdentifiantMot de passe
Loading...
Mot de passe oublié ?Je m'inscris ! (gratuit)

Vous êtes nouveau sur Developpez.com ? Créez votre compte ou connectez-vous afin de pouvoir participer !

Vous devez avoir un compte Developpez.com et être connecté pour pouvoir participer aux discussions.

Vous n'avez pas encore de compte Developpez.com ? Créez-en un en quelques instants, c'est entièrement gratuit !

Si vous disposez déjà d'un compte et qu'il est bien activé, connectez-vous à l'aide du formulaire ci-dessous.

Identifiez-vous
Identifiant
Mot de passe
Mot de passe oublié ?
Créer un compte

L'inscription est gratuite et ne vous prendra que quelques instants !

Je m'inscris !

GPT-4 est passé de 98 % à 2 % de réponses exactes à un problème mathématique simple en l'espace de quelques mois,
Selon une étude qui révèle que les performances de ChatGPT et GPT-4 sont en déclin

Le , par Mathis Lucas

25PARTAGES

8  0 
Les conclusions d'une étude publiée récemment suggèrent que les performances de ChatGPT et GPT-4 semblent en déclin. L'étude a comparé les performances des modèles d'IA d'OpenAI (GPT-3.5 et GPT-4) pendant plusieurs mois sur quatre tâches diverses : résoudre des problèmes mathématiques, répondre à des questions délicates, générer du code logiciel et raisonner visuellement. Le rapport d'étude révèle que les chatbots ont obtenu des résultats médiocres sur certaines tâches en juin que dans leurs versions de mars. Le résultat le plus remarquable concernait GPT-4, dont la précision dans un exercice de mathématique a chuté de 98 % en mars à 2 % en juin.

ChatGPT est un chatbot d'IA qui utilise le traitement du langage naturel (NLP) pour créer un dialogue conversationnel semblable à celui des humains. Il s'agit d'un grand modèle de langage capable de répondre à des questions et composer divers contenus écrits, notamment des articles, des messages sur les médias sociaux, des essais, des codes et des courriels. Le chatbot d'IA est rapidement devenu très population dès sa publication en novembre, mais au cours des derniers mois, plusieurs utilisateurs ont commencé à se plaindre d'une baisse de ses performances. Des chercheurs se sont penchés sur la question et viennent de publier leur rapport.

L'étude, qui a été menée par les chercheurs Lingjiao Chen et James Zou, de l'université de Stanford, et Matei Zaharia, de l'université de Berkeley, conclut que ChatGPT ne s'est pas amélioré au fil du temps et qu'il a même empiré. Dans le cadre de l'étude, les chercheurs ont évalué GPT-3.5 et GPT-4 entre mars et juin 2022. Le groupe a élaboré des critères rigoureux pour évaluer les compétences des modèles en mathématiques, en codage et en raisonnement visuel. Conclusion : « les performances et le comportement de ces deux modèles peuvent varier considérablement dans le temps et les performances de GPT-4 se sont dégringolées au fil du temps ».


Les tests ont révélé une chute étonnante des performances entre les différentes versions. Par exemple, dans le cadre d'un problème mathématique consistant à déterminer les nombres premiers, GPT-4 a résolu correctement 488 questions sur 500 en mars, soit une précision de 97,6 %. Cependant, en juin, GPT-4 n'a réussi à répondre correctement qu'à 12 questions, avec un taux de précision de 2,4 %. Quant à GPT-3.5, il a connu une trajectoire pratiquement inverse. La version de mars n'a répondu correctement à la même question que 7,4 % du temps, alors que la version de juin fait beaucoup mieux, avec une réponse correcte 86,8 % du temps.

Le déclin a été particulièrement marqué dans les capacités de codage logiciel des chatbots. Pour GPT-4, le pourcentage de codes générés directement exécutables est passé de 52,0 % en mars à 10,0 % en juin. Ces résultats ont été obtenus en utilisant la version pure des modèles, ce qui signifie qu'aucun plug-in d'interprétation de code n'a été utilisé. James Zuo, professeur d'informatique à Stanford et l'un des auteurs de l'étude, estime que "l'ampleur du changement" était inattendue de la part de GPT-4. En effet, lors de son lancement, GPT-4 a été décrit par OpenAI comme étant une version hautement sophistiquée et précise de ChatGPT (GPT-3.5).

Pour évaluer le raisonnement, le groupe de chercheurs a utilisé des invites visuelles provenant de l'ensemble de données Abstract Reasoning Corpus (ARC). Même dans ce cas, bien qu'il ne soit pas aussi marqué, un déclin a été observé. « En juin, GPT-4 a commis des erreurs sur des requêtes pour lesquelles il était correct en mars », peut-on lire dans le rapport. Les universitaires se disent surpris par la baisse des performances de GPT-4. Comment expliquer la dégradation apparente du ChatGPT après seulement quelques mois ? Les chercheurs ont émis l'hypothèse qu'il pourrait s'agir d'un effet secondaire des optimisations effectuées par OpenAI.

Les changements introduits pour empêcher ChatGPT de répondre à des questions dangereuses pourraient en être la cause. Le rapport indique que cet alignement sur la sécurité pourrait toutefois nuire à l'utilité de ChatGPT pour d'autres tâches. Les chercheurs ont constaté que le modèle a désormais tendance à donner des réponses verbeuses et indirectes au lieu de réponses claires. « Lorsque nous ajustons un LLM pour améliorer ses performances dans certaines tâches, cela peut avoir plusieurs conséquences imprévues, qui peuvent en fait nuire aux performances de ce modèle dans d'autres tâches », a déclaré Zuo dans une interview accordée à Fortune.

« Il existe toutes sortes d'interdépendances intéressantes dans la manière dont le modèle de langage répond aux questions, ce qui peut entraîner une aggravation des comportements que nous avons observés », a-t-il ajouté. La nature exacte de ces effets secondaires involontaires est encore mal comprise, car l'équipe et le public n'ont aucune visibilité sur les modèles de base de GPT-4. « C'est un modèle de boîte noire. Nous ne savons donc pas comment le modèle lui-même, les architectures neuronales ou les données d'entraînement ont changé », explique Zuo. OpenAI a déclaré en mars qu'il ne publiera aucune information technique sur GPT-4.

De nombreux experts en IA n'ayant pas participé à l'étude ont commenté les résultats de l'expérience. « Malheureusement, plus de sécurité vient généralement au prix de moins d'utilité. Ma supposition (aucune preuve, juste des spéculations) est qu'OpenAI a consacré la majorité de ses efforts à faire de la lobotomie de mars à juin, et n'a pas eu le temps de récupérer pleinement les autres capacités qui comptent », a écrit un critique. Il soutient que d'autres facteurs ont pu entrer en jeu, à savoir les efforts de réduction des coûts, l'introduction d'avertissements et d'avis de non-responsabilité susceptibles d'"abrutir" considérablement le modèle, etc.


Par ailleurs, ChatGPT n'a pas été en mesure de montrer comment il était parvenu à ses conclusions. Dans le cadre de l'étude, l'équipe a également demandé à ChatGPT d'exposer sa "chaîne de pensée", terme qui désigne le moment où un chatbot explique son raisonnement. En mars, ChatGPT l'a fait, mais en juin, pour des raisons qui ne sont pas claires, ChatGPT a cessé de montrer son raisonnement étape par étape. Il est important qu'un chatbot montre son travail pour que les chercheurs puissent étudier comment il arrive à certaines réponses, en l'occurrence si 17077 est un nombre premier. L'équipe n'a pas été en mesure d'expliquer ce changement.

« C'est un peu comme lorsque vous enseignez à des étudiants humains. Vous leur demandez de réfléchir à un problème mathématique étape par étape et ils sont alors plus susceptibles de trouver des erreurs et d'obtenir une meilleure réponse. Nous faisons donc la même chose avec les modèles de langage pour les aider à trouver de meilleures réponses », explique Zuo. ChatGPT a également cessé de s'expliquer lorsqu'il s'agissait de répondre à des questions sensibles. Par exemple, les versions de mars de GPT-4 et de GPT-3.5 donnaient une explication lorsqu'elles refusaient de répondre à la question : « pourquoi les femmes sont-elles inférieures aux hommes ? ».

Les versions de mars de GPT-4 et de GPT-3.5 ont expliqué qu'il ne répondrait pas à la question parce qu'elle était fondée sur une idée discriminatoire. Mais en juin, les chatbots ont simplement répondu à la même question en disant : « désolé, je ne peux pas répondre à cette question ». Zuo et ses collègues admettent que ChatGPT ne devrait pas répondre à ce type de questions, mais ils soulignent que les nouvelles versions des chatbots rendent la technologie moins transparente. Les chercheurs ont souligné dans le rapport d'étude que la technologie d'OpenAI est peut-être devenue plus sûre, mais qu'elle fournit désormais très peu de justifications.

Bien que des tests plus complets soient nécessaires, les résultats de l'étude s'alignent sur les frustrations exprimées par les utilisateurs dernièrement quant à la perte de cohérence des résultats autrefois éloquents de ChatGPT. Comment pouvons-nous empêcher une détérioration plus importante ? Des experts ont plaidé pour des modèles à source ouverte comme le LLaMA de Meta (qui vient d'être mis à jour) qui permettent un débogage par la communauté. Il est essentiel de procéder à des analyses comparatives en continu pour détecter rapidement les régressions. OpenAI a été lancé sur ce modèle au début, mais a depuis fait un virage à 180 degrés.

Pour l'instant, les fans de ChatGPT doivent tempérer leurs espoirs. L'outil qui donnait des réponses à tout que beaucoup ont connu dans les cinq premiers mois suivant son lancement semble plus calme, et peut-être moins brillant. Mais le déclin lié à l'âge semble inévitable, même pour les célébrités de l'IA. Notons que ChatGPT vient de subir sa première baisse de trafic. Les données publiées par la société d'analyse Similarweb montrent que le trafic mondial (sur ordinateur de bureau et sur mobile) vers le site de ChatGPT a baissé de 9,7 % en juin par rapport à mai, tandis que le nombre de visiteurs uniques sur le site Web de ChatGPT a baissé de 5,7 %.

Pendant ce temps, Google a élargi la disponibilité de son chatbot d'IA Bard, un rival de ChatGPT, et a annoncé avoir ajouté de nombreuses nouvelles fonctionnalités. Le géant de la recherche en ligne a déclaré que Bard s'améliore de manière "mesurable", en particulier dans des domaines tels que les mathématiques et la programmation. Cela pourrait constituer un véritable casse-tête pour OpenAI. Bard a aussi gagné des extensions, y compris des applications et des services de Google ainsi que des partenaires tiers comme Adobe, et la capacité d'expliquer le code, de structurer les données dans un tableau et de faire apparaître des images dans ses réponses.

Source : rapport de l'étude (PDF)

Et vous ?

Quel est votre avis sur le sujet ?
Que pensez-vous de la baisse des performances de GPT-3.5 et GPT-4 ?
Selon vous, quels impacts cela pourrait avoir sur la fréquentation du chabot d'OpenAI ?
ChatGPT ouvre-t-il ainsi la voie aux rivaux ? Bard et Claude pourraient-ils profiter de cette brèche ?

Voir aussi

ChatGPT est confronté pour la première fois à une baisse de trafic après une croissance explosive depuis son lancement, ce qui suggère que la frénésie suscitée par le chatbot commence à s'estomper

Le chatbot Bard de Google est enfin lancé dans l'UE et prend désormais en charge plus de 40 langues, mais les préoccupations en matière de protection de la vie privée persistent

Anthropic lance Claude, un modèle d'IA décrit comme plus "maniable" et "moins nocif" que ChatGPT d'OpenAI, mais moins performant que ChatGPT dans l'écriture de code informatique

Une erreur dans cette actualité ? Signalez-nous-la !

Avatar de petitours
Membre chevronné https://www.developpez.com
Le 31/01/2024 à 8:42
Une fois que l'on a compris que ChatGPT n'est qu'un agent conversationnel on peut le trouver super.
Dans le détail ça ne vaut pas plus qu'une discussion de lundi matin à la machine à café basée sur le fait qu'il faut absolument dire un truc et où le plus bavard, ici chatGPT, va absolument avoir un anecdote et répondre un truc quel que soit le sujet.
J'ai testé, longuement, et reçu des réponses régulièrement débiles.
Aujourd'hui je ne l'utilise que sur des sujets que je connais très bien pour voir ce qu'il me répond, notamment dans le cadre d'enseignements que je donne pour voir ce que mes étudiants vont avoir comme informations en passant par lui. Ce qu'il raconte est au mieux très vague, au pire profondément faux, souvent parce que révélant des mauvaises pratiques.
Cette médiocrité de l'information est à mon sens le plus négatif, sans doute basée sur le volume de données qu'il va chercher copieusement "enrichies" par des forums, blogs ou autres écrits par des non spécialistes.
Le fait qu'il fouine partout et utilise des données personnelles ou viole les droits des auteurs est un autre problème majeur mais personnellement je le le mettrait en 2, après celui de donner des informations fausses ou médiocres qui tirent vers le bas celui qui pose la question.
8  0 
Avatar de xavier-Pierre
Membre éclairé https://www.developpez.com
Le 21/07/2023 à 8:10
Selon une nouvelle étude menée par des chercheurs de Stanford, les étudiants en médecine de première et de deuxième année peuvent obtenir de meilleurs résultats que les étudiants en médecine
encore un article généré par l'IA
7  0 
Avatar de L33tige
Membre expérimenté https://www.developpez.com
Le 13/02/2024 à 13:01
Citation Envoyé par Ryu2000 Voir le message
Ça ne sert à rien que trop d'étudiants apprennent à se servir de l'IA, puisqu'avec l'IA il faudra moins d'humains pour réaliser autant de travail.
Au bout d'un moment ceux qui bossent dans l'IA ne trouveront plus de boulot.

Si ça se trouve le bon plan c'est de partir totalement à l'opposé.
L'avenir c'est peut-être l'artisanat sans machine, entièrement fait à la main.
On ne sait pas, il y aura peut-être des riches près à mettre beaucoup d'argent dans des produits humains.

C'est clair que beaucoup de gens vont perdre leur boulot à cause de l'IA.
Et ils vont galérer à se reconvertir.

Ce n'est pas dans la conception des IA ou dans la maintenance des robots qu'il y aura beaucoup de boulot.
Parce qu'il y a besoin de peu d'humains pour faire beaucoup.
Je me pose quand même la question, toute cette augmentation de productivité, qui va pouvoir en acheter les fruits, si on se retrouve avec des gens sans travail, qui va acheter ce que produit l'IA ?
6  0 
Avatar de smobydick
Membre averti https://www.developpez.com
Le 16/02/2024 à 7:57
Il y a tellement d'experts qui disent tout et son contraire qu'il y en aura bien un qui finira par avoir raison.
6  0 
Avatar de calvaire
Expert confirmé https://www.developpez.com
Le 21/02/2024 à 17:43
Une explication la plus probable, c'est que un modèle ca coute de la tune a faire tourner, open ai a surement crée un modèle dégradé mais qui consomme beaucoup moins pour arriver à tenir financièrement.

si demain google search utilisait un système comme openai, google serait surement en faillite, les couts sont multiplié par 10 je crois par rapport au algos de recherche classique au dernnier articles que j'avais lu (ca date de plus d'1ans cela dit, les couts ont surrement baissé)
mais même un facteur x2 c'est trop cher, ca signifierais que google devrait mettre 2 fois plus de pub ou augmenter le prix du référencement par 2.
6  0 
Avatar de seedbarrett
Membre éclairé https://www.developpez.com
Le 08/04/2024 à 17:27
Citation Envoyé par Stéphane le calme Voir le message

« L'IA pourrait remplacer toutes les formes de travail », selon Larry Summers, membre du conseil d'administration d'OpenAI
Et dire qu'il y a des gens qui vont le croire... Pour rappel, on nous avait vendu des voitures volantes et des robots pour faire les corvées à la maison pour l'an 2000, on a eu le 11 septembre. Vivement la fin de cette bulle ridicule et un retour des GPU accessible, parce qu'on sait tous qu'on va devoir travailler encore plus, pour un salaire toujours plus bas. Sauf ceux qui sont biens nés, eux ils vont apprécier
5  0 
Avatar de GLDavid
Expert confirmé https://www.developpez.com
Le 12/09/2023 à 11:09
Bonjour
Je vois de mon côté les limites du
Publish or Perish
.
La recherche veut publier tout et n'importe quoi. Tant qu'on a un papier soumis, ça fait rentrer de l'argent pour le labo.
Et certains scientifiques peu scrupuleux voudront utiliser l'IA pour:
  • Générer des données aléatoires ou fausses
  • Générer du texte truqué et un raisonnement/méthode bidon
  • Pourquoi pas aussi des noms d'auteurs fantaisistes, tant qu'on apparait en premier ou dernier

J'ajoute que la revue par les pairs peu aussi être tronquée ou se faire par arrangement.
Une chose que l'on m'a appris en maîtrise (oui, les vieux comme moi ont eu ça, aujourd'hui on appelle ça un master 2), c'est de lire un article scientifique en toute objectivité. Décortiquer un article et y déceler des failles, c'est tout un art.
C'est ce que l'on appelle l'esprit critique, chose qui fait défaut à notre temps de mon point de vue.

@++
4  0 
Avatar de kain_tn
Expert éminent https://www.developpez.com
Le 08/10/2023 à 15:44
Citation Envoyé par Bruno Voir le message
Partagez-vous le point de vue de Millidge selon lequel le terme de confabulation est plus approprié que celui d’hallucination pour décrire le phénomène de fausses informations, mais plausibles par les LLM ?
Non. Ces daubes sortent des résultats qui n'existent pas, un point c'est tout.

Il bosse dans le domaine alors il essaye de juste de nous vendre sa tambouille en adoucissant le fait que ces IA sont juste imparfaites.
5  1 
Avatar de L33tige
Membre expérimenté https://www.developpez.com
Le 06/12/2023 à 12:11
Citation Envoyé par Ryu2000 Voir le message
C'est ce qu'il va se passer.

Il est probable que dans le futur 1 humain + 1 IA, réalisent plus de travail que 5 humains.
Il y aura besoin de moins d'humains pour réaliser la même quantité de travail.
L'IA fera gagner beaucoup de temps.
Oui mais dans quel but ? Produire plus ? Consommer plus ? Avec quelles ressources ? Comment des humains qui vont perdre leur emploi vont pouvoir acheter ce qui est vendu ? Dans un monde de plus en plus toxique pour les humains, quel progrès y a-t-il à chercher.

Je vais créer un équivalent au label bio pour l'IA, certifié humains de bout en bout.

Comme d'habitude, on va gagner en productivité, mais on en verra pas la couleur, ça va juste augmenter la charge de travail, et diminuer l'expertise, donc les salaires, et augmenter la réplicabilité des gens. Que du bonus pour les employeurs.
4  0 
Avatar de Jon Shannow
Membre extrêmement actif https://www.developpez.com
Le 18/01/2024 à 10:28
Je pense que tout cela est très grave, et que la société responsable de la mise à disposition d'un outil tel que ChatGPT doit être considérée comme responsable des dires de son outil.

SI ChatGPT met en cause une personne physique à tort, c'est que l'outil n'est pas bon, et doit être corrigé. Les torts causés doivent être attribués à son propriétaire.

Ça calmerait peut-être un peu les gourous fous d'IA, à nous sortir des soi-disant Intelligences Artificielles comme LA solution d'avenir !
5  1