GPT-4 Turbo est-il vraiment plus puissant et plus performant ? Les résultats des benchmarks et les avis sont partagés sur l'édition de code

Et les autres usages

Le 9 novembre 2023 à 11:16, par Mathis Lucas

37PARTAGES

GPT-4 Turbo est-il vraiment plus puissant et plus performant ? Les résultats des benchmarks et les avis sont partagés sur l'édition de code
et les autres usages

OpenAI a publié GPT-4 Turbo affirmant qu'il s'agit du modèle d'IA le plus puissant de l'entreprise et de l'industrie. Mais cette affirmation est controversée. Les résultats de tests individuels révèlent que le nouveau modèle d'IA d'OpenAI affiche des performances mitigées sur les benchmarks. Lors des tests réalisés avec Aider, un outil de ligne de commande, GPT-4 Turbo fait légèrement mieux que GPT-4 : 53 % des codes générés par GPT-4 Turbo semblent corrects contre 46 % pour son prédécesseur. Par contre, dans les tests réalisés sur le benchmark SAT (une série de questions d'entraînement), GPT-4 Turbo obtient un score inférieur à celui de son prédécesseur, GPT-4.

GPT-4 Turbo affiche des performances mitigées en matière de génération de code

Les performances réelles de GPT-4 Turbo font l'objet d'un grand débat dans la communauté. En dévoilant GPT-4 Turbo en avant-première, OpenAI n'a pas présenté les résultats des tests de performance qui lui permettent d'affirmer qu'il s'agit du modèle d'IA le plus puissant de l'industrie. Au contraire, l'entreprise semble avoir laissé le soin aux développeurs de tester l'outil et de faire part de leurs commentaires. Les résultats des premiers tests individuels sont tombés et révèlent que même si GPT-4 Turbo semble beaucoup plus rapide que GPT-4 et GPT-3.5, il affiche des performances peu séduisantes, voire parfois inférieures à celles de ces prédécesseurs.

Après des tests réalisés sur le benchmark Aider, un développeur rapporte que GPT-4 est beaucoup plus rapide et un peu plus performant en matière de codage que les modèles GPT-4 précédents. Aider est un outil de chat en ligne de commande open source qui vous permet de travailler avec GPT pour éditer du code dans votre dépôt Git local. Pour ce faire, Aider doit être capable de reconnaître de manière fiable quand GPT veut éditer votre code source, de déterminer quels fichiers il veut modifier et d'appliquer avec précision les changements qu'il essaie de faire. Selon l'auteur, vous pouvez démarrer un nouveau projet ou travailler avec un dépôt existant.

Le benchmark utilise Aider pour essayer de compléter 133 exercices de codage Python d'Exercism. Pour chaque exercice, Exercism fournit un fichier Python de départ avec les fonctions nécessaires, une description en langage naturel du problème à résoudre et une suite de tests qui permettent d'évaluer si le codeur a correctement résolu le problème. Voici ci-dessous les résultats obtenus par GPT-4 lors de ce test de performance :

le nouveau modèle GPT-4 Turbo (que les développeurs peuvent tester en passant l'argument "gpt-4-1106-preview" dans l'API) semble beaucoup plus rapide que les modèles GPT-4 précédents ;
GPT-4 Turbo semble mieux produire un code correct du premier coup. Environ 53 % des exercices de codage qu'il a résolus étaient corrects, sans avoir besoin de voir les erreurs de la suite de tests. Les modèles précédents n'obtenaient qu'un taux de réussite de 46 à 47 % du premier coup ;
GPT-4 Turbo semble obtenir des résultats similaires (~62 %) à ceux des anciens modèles (63 à 64 %) après leur deuxième chance de corriger les bogues en examinant les résultats des erreurs de la suite de tests.

Le développeur a toutefois mis en garde : « il s'agit de résultats préliminaires. OpenAI impose des limites de débit très basses au nouveau modèle GPT-4. La limitation du taux perturbe le processus d'analyse comparative, qui doit être interrompu et redémarré fréquemment. Il a fallu environ 20 exécutions partielles sur environ 2 jours pour compléter les 133 exercices d'Exercism. Le système d'analyse comparative est conçu pour s'arrêter et redémarrer de cette manière, mais les résultats d'une seule exécution "propre" seraient plus fiables. Une fois que les limites de taux seront assouplies, j'effectuerai une exécution propre de l'ensemble du benchmark ».

Ce dernier a publié les résultats de son test, mais ils ont été contestés par des critiques qui affirment que GPT-4 Turbo n'est pas meilleur pour le codage et qu'OpenAI n'a pas été tout à fait clair sur les améliorations qu'il a apportées au modèle de langage. Un critique qui a testé la version préliminaire de l'API rapporte :

J'ai donc joué avec la prévisualisation de l'API et ce que j'ai trouvé est le suivant : la longueur de contexte de 128 000 jetons ne peut pas garder un script de code de 100 lignes dans sa mémoire (1 000 à 2 000 jetons ou quelque chose de très court comparé à la longueur de contexte de 128 000).

J'ai collé le script dans le chat et j'ai demandé une amélioration. Je lui ai surtout demandé de me renvoyer le code complet avec les améliorations. Alors oui, il ne l'a pas fait, il m'a donné le script et a inutilement donné quelques fonctions (pas très longues donc quelques lignes de code) comme "voici la fonction dans votre code précédent". J'ai torturé la machine avec des instructions personnalisées et je lui ai dit très clairement qu'elle devait toujours me renvoyer le code complet avec les améliorations et ne rien laisser de côté. La machine n'obéit pas à ces instructions et ne complète toujours pas une partie du code qu'elle me renvoie.

En fait, GPT-4 Turbo prétend que mon code original ne comportait pas ces fonctions en toutes lettres, alors qu'elles l'étaient. Ainsi, la longueur de contexte de 128 000 jetons est une sorte de compression, ce qui signifie que, quel que soit le contexte que vous lui donnez, il sera simplement compressé. Il peut ou non reconnaître une partie importante qui est cruciale pour votre tâche, selon qu'elle se perd ou non dans la compression. J'ai répété ce processus tellement de fois que j'ai abandonné et j'ai conclu que la longueur de contexte de 128 000 jetons est un argument marketing ou qu'il y a de sérieux problèmes liés à la demande qui cassent le système.

Je n'ai pas besoin d'expliquer ce que cela signifie pour la précision ou la qualité du travail effectué. Certes, je peux compresser un livre et obtenir un beau résumé, mais si ce n'est pas ce que je veux, je n'ai pas de chance. Si je veux vraiment qu'il comprenne mon contexte, je dois revenir aux anciens modèles. Oh attendez, ceux-ci sont maintenant déclassés ou affichent au moins 2 000 jetons de longueur de contexte maximum (par rapport aux 8 000 jetons précédents par exemple).

Je pense que demander une longueur de contexte de 128 000 jetons avec la même qualité que 8 000 par exemple, alors que c'est plus rapide et moins cher, c'est un peu stupide. Mais je ne peux m'empêcher de penser que pour le codage et de nombreuses tâches du monde réel, c'est à la limite de l'inutilisable (du moins pour moi et mes cas d'utilisation).

Je vais juste clarifier quelques points ici. Je n'ai pas eu de problème avec le système d'exploitation, donc mon entrée + sortie était bien en dessous de 4 000 jetons (limite de la sortie actuellement). GPT 3.5 et GPT 4 avec un contexte plus court pouvaient gérer le code sans compression, donc c'est un problème qui n'affecte que GPT-4 Turbo (preview). Cette limitation est une chose qui ne peut pas être contournée par une "ingénierie rapide".

Les performances de GPT-4 Turbo sont controversées par un test sur le benchmark SAT

OpenAI a dévoilé GPT-4 Turbo cette semaine et l'a présenté comme une version améliorée de son puissant grand modèle de langage (LLM) GPT-4. L'une des principales améliorations de GPT-4 Turbo est l'agrandissement de la fenêtre contextuelle. Le contexte fait référence à la quantité de texte que le modèle de langage peut traiter en même temps. GPT-4 Turbo peut traiter jusqu'à 128 000 jetons, soit l'équivalent d'environ 300 pages de texte. Il s'agit de l'une des plus grandes fenêtres contextuelles de tous les LLM actuels (Claude 2 n'offre que 100 000 jetons). Le modèle GPT-4, quant à lui, est limité à un nombre plus modeste de 8 000 tokens, soit 24 pages.

OpenAI claims GPT4-turbo is “better” than GPT4, but I ran my own tests and don’t think that's true.

I benchmarked on SAT reading, which is a nice human reference for reasoning ability. Took 3 sections (67 questions) from an official 2008-2009 test (2400 scale) and got the… pic.twitter.com/LzIYS3R9ny
— Jeffrey Wang (@wangzjeff) November 7, 2023

La fenêtre contextuelle plus large permet à GPT-4 Turbo de comprendre en profondeur davantage d'informations et d'établir des liens entre des documents plus vastes. Avec plus de contexte, l'IA peut fournir des réponses plus "intelligentes" et plus nuancées que les quelques dernières phrases qu'elle a lues. Cette connaissance élargie conduit à des conversations plus cohérentes et à une analyse plus réfléchie. De plus, la base de connaissances de GPT-4 Turbo a été mise à jour à avril 2023, alors que celle de GPT-4 est limitée à septembre 2021. Grâce à ce changement, GPT-4 Turbo peut discuter et comprendre les derniers événements, recherches et faits.

Selon OpenAI, pour un modèle d'IA, il est essentiel de rester à jour. Des connaissances obsolètes conduisent à des réponses incorrectes ou ignorantes. L'actualisation des connaissances de GPT-4 Turbo lui permet de rester pertinent et utile pour les conversations d'aujourd'hui. En plus, l'utilisation de GPT-4 Turbo est moins coûteuse pour les développeurs. L'entrée ne coûte que 0,01 $ pour 1 000 jetons, contre 0,03 $ pour GPT-4. Le coût de sortie est de 0,03 $ pour 1 000 jetons. Dans l'ensemble, le nouveau modèle est trois fois moins cher que les versions précédentes. Le coût réduit rend le modèle d'IA avancée plus accessible aux développeurs.

Pourtant, tout ceci ne permet pas à GPT-4 Turbo d'obtenir de meilleurs résultats que GPT-4 sur le benchmark SAT. Le benchmark SAT (Scholastic Assessment Test) est une série de questions d'entraînement conçue pour aider les étudiants à se préparer à un test du même nom. Le SAT est un test standardisé couramment utilisé pour l'admission à l'université aux États-Unis. Il évalue la préparation d'un étudiant à l'université et est utilisé par de nombreux collèges et universités dans le cadre de leur processus d'admission. Le score moyen au SAT est d'environ 1 050, mais certaines universités sont très sélectives et exigent un score moyen plus élevé au SAT.

Pour évaluer les performances de GPT-4 Turbo, un autre développeur s'est basé sur la section lecture du SAT, considérée comme une bonne référence humaine pour la capacité de raisonnement. « J'ai pris 3 sections (67 questions) d'un test officiel de 2008-2009 (échelle de 2 400) », a-t-il déclaré. Il a obtenu les résultats suivants :

GPT-3.5 : 690 points (10 fautes) ;
GPT-4 : 770 points (3 fautes) ;
GPT-4 Turbo : (une section à la fois) : 740 points (5 fautes) ;
GPT-4 Turbo (3 sections à la fois, 9 000 jetons) : 730 points (6 fautes).

Le développeur explique : « 770 points contre 740 points au SAT sont en effet une énorme différence. En supposant que cela s'applique aux autres sections (que je n'ai pas encore notées), c'est un score de 2 310 contre 2 220 s'il est calculé, ce qui peut faire la différence entre l'entrée dans une université d'élite ou non ». Concernant les tâches de programmation, il a supposé : « pour une tâche comme la programmation, disons que GPT4 Turbo fait des erreurs 5 % du temps contre 3 % pour GPT4. Utiliseriez-vous GPT-4 Turbo même s'il était beaucoup plus rapide ? Je pense que pour la plupart des tâches de programmation, je m'en tiendrais à GPT4 ».

Ce test rappelle un précédent rapport sur la dégradation des performances de GPT-4. Le rapport a allégué en juillet que les performances de ChatGPT et GPT-4 étaient en déclin, après avoir comparé les performances des modèles pendant plusieurs mois sur quatre tâches diverses : résolution de problèmes mathématiques, réponse à des questions délicates, génération de code et raisonnement visuel. Il révèle que les modèles ont obtenu des résultats médiocres sur certaines tâches en juin que dans leurs versions de mars. Par ailleurs, il souligne que la précision de GPT-4 dans un exercice de mathématique a chuté de 98 % en mars à 2 % en juin.

Source : billets de blogue (1, 2)

Et vous ?

Quel est votre avis sur le sujet ?

Que pensez-vous des performances préliminaires de GPT-4 Turbo ?

Selon vous, GPT-4 Turbo est-il meilleur que ses prédécesseurs ou pas ?

Que pensez-vous du débat sur la fenêtre contextuelle élargie de GPT-4 Turbo ?

Que pensez-vous des performances de GPT-4 Turbo en matière de génération de code ?

Voir aussi

OpenAI lance un nouveau modèle de langage appelé GPT-4 Turbo qui serait plus puissant et moins cher que GPT-4, avec une fenêtre contextuelle plus grande que celle du modèle d'IA Claude 2 d'Anthropic

OpenAI introduit des assistants d'IA personnalisés appelés « GPT » qui jouent différents rôles selon vos besoins, et prévoit de rémunérer les créateurs dont les GPT seront utilisés

GPT-4 est passé de 98 % à 2 % de réponses exactes à un problème mathématique simple en l'espace de quelques mois, selon une étude qui révèle que les performances de ChatGPT et GPT-4 sont en déclin

Vous avez lu gratuitement 254 articles depuis plus d'un an.
Soutenez le club developpez.com en souscrivant un abonnement pour que nous puissions continuer à vous proposer des publications.

Une erreur dans cette actualité ? Signalez-nous-la !

Votre nom : Votre e-mail :

Décrivez l'erreur que vous souhaitez porter à notre connaissance :

Identifiez-vous

Créer un compte

GPT-4 Turbo est-il vraiment plus puissant et plus performant ? Les résultats des benchmarks et les avis sont partagés sur l'édition de code

Et les autres usages

Identifiant
Mot de passe

Mot de passe oublié ?

Identifiez-vous

Créer un compte

GPT-4 Turbo est-il vraiment plus puissant et plus performant ? Les résultats des benchmarks et les avis sont partagés sur l'édition de code Et les autres usages

GPT-4 Turbo est-il vraiment plus puissant et plus performant ? Les résultats des benchmarks et les avis sont partagés sur l'édition de code

Et les autres usages