
et les autres usages
OpenAI a publié GPT-4 Turbo affirmant qu'il s'agit du modèle d'IA le plus puissant de l'entreprise et de l'industrie. Mais cette affirmation est controversée. Les résultats de tests individuels révèlent que le nouveau modèle d'IA d'OpenAI affiche des performances mitigées sur les benchmarks. Lors des tests réalisés avec Aider, un outil de ligne de commande, GPT-4 Turbo fait légèrement mieux que GPT-4 : 53 % des codes générés par GPT-4 Turbo semblent corrects contre 46 % pour son prédécesseur. Par contre, dans les tests réalisés sur le benchmark SAT (une série de questions d'entraînement), GPT-4 Turbo obtient un score inférieur à celui de son prédécesseur, GPT-4.
GPT-4 Turbo affiche des performances mitigées en matière de génération de code
Les performances réelles de GPT-4 Turbo font l'objet d'un grand débat dans la communauté. En dévoilant GPT-4 Turbo en avant-première, OpenAI n'a pas présenté les résultats des tests de performance qui lui permettent d'affirmer qu'il s'agit du modèle d'IA le plus puissant de l'industrie. Au contraire, l'entreprise semble avoir laissé le soin aux développeurs de tester l'outil et de faire part de leurs commentaires. Les résultats des premiers tests individuels sont tombés et révèlent que même si GPT-4 Turbo semble beaucoup plus rapide que GPT-4 et GPT-3.5, il affiche des performances peu séduisantes, voire parfois inférieures à celles de ces prédécesseurs.
Après des tests réalisés sur le benchmark Aider, un développeur rapporte que GPT-4 est beaucoup plus rapide et un peu plus performant en matière de codage que les modèles GPT-4 précédents. Aider est un outil de chat en ligne de commande open source qui vous permet de travailler avec GPT pour éditer du code dans votre dépôt Git local. Pour ce faire, Aider doit être capable de reconnaître de manière fiable quand GPT veut éditer votre code source, de déterminer quels fichiers il veut modifier et d'appliquer avec précision les changements qu'il essaie de faire. Selon l'auteur, vous pouvez démarrer un nouveau projet ou travailler avec un dépôt existant.
Le benchmark utilise Aider pour essayer de compléter 133 exercices de codage Python d'Exercism. Pour chaque exercice, Exercism fournit un fichier Python de départ avec les fonctions nécessaires, une description en langage naturel du problème à résoudre et une suite de tests qui permettent d'évaluer si le codeur a correctement résolu le problème. Voici ci-dessous les résultats obtenus par GPT-4 lors de ce test de performance :
- le nouveau modèle GPT-4 Turbo (que les développeurs peuvent tester en passant l'argument "gpt-4-1106-preview" dans l'API) semble beaucoup plus rapide que les modèles GPT-4 précédents ;
- GPT-4 Turbo semble mieux produire un code correct du premier coup. Environ 53 % des exercices de codage qu'il a résolus étaient corrects, sans avoir besoin de voir les erreurs de la suite de tests. Les modèles précédents n'obtenaient qu'un taux de réussite de 46 à 47 % du premier coup ;
- GPT-4 Turbo semble obtenir des résultats similaires (~62 %) à ceux des anciens modèles (63 à 64 %) après leur deuxième chance de corriger les bogues en examinant les résultats des erreurs de la suite de tests.
Le développeur a toutefois mis en garde : « il s'agit de résultats préliminaires. OpenAI impose des limites de débit très basses au nouveau modèle GPT-4. La limitation du taux perturbe le processus d'analyse comparative, qui doit être interrompu et redémarré fréquemment. Il a fallu environ 20 exécutions partielles sur environ 2 jours pour compléter les 133 exercices d'Exercism. Le système d'analyse comparative est conçu pour s'arrêter et redémarrer de cette manière, mais les résultats d'une seule exécution "propre" seraient plus fiables. Une fois que les limites de taux seront assouplies, j'effectuerai une exécution propre de l'ensemble du benchmark ».
Ce dernier a publié les résultats de son test, mais ils ont été contestés par des critiques qui affirment que GPT-4 Turbo n'est pas meilleur pour le codage et qu'OpenAI n'a pas été tout à fait clair sur les améliorations qu'il a apportées au modèle de langage. Un critique qui a testé la version préliminaire de l'API rapporte :
J'ai donc joué avec la prévisualisation de l'API et ce que j'ai trouvé est le suivant : la longueur de contexte de 128 000 jetons ne peut pas garder un script de code de 100 lignes dans sa mémoire (1 000 à 2 000 jetons ou quelque chose de très court comparé à la longueur de contexte de 128 000).
J'ai collé le script dans le chat et j'ai demandé une amélioration. Je lui ai surtout demandé de me renvoyer le code complet avec les améliorations. Alors oui, il ne l'a pas fait, il m'a donné le script et a inutilement donné quelques fonctions (pas très longues donc quelques lignes de code) comme "voici la fonction dans votre code précédent". J'ai torturé la machine avec des instructions personnalisées et je lui ai dit très clairement qu'elle devait toujours me renvoyer le code complet avec les améliorations et ne rien laisser de côté. La machine n'obéit pas à ces instructions et ne complète toujours pas une partie du code qu'elle me renvoie.
En fait, GPT-4 Turbo prétend que mon code original ne comportait pas ces fonctions en toutes lettres, alors qu'elles l'étaient. Ainsi, la longueur de contexte de 128 000 jetons est une sorte de compression, ce qui signifie que, quel que soit le contexte que vous lui donnez, il sera simplement compressé. Il peut ou non reconnaître une partie importante qui est cruciale pour votre tâche, selon qu'elle se perd ou non dans la compression. J'ai répété ce processus tellement de fois que j'ai abandonné et j'ai conclu que la longueur de contexte de 128 000 jetons est un argument marketing ou qu'il y a de sérieux problèmes liés à la demande qui cassent le système.
Je n'ai pas besoin d'expliquer ce que cela signifie pour la précision ou la qualité du travail effectué. Certes, je peux compresser un livre et obtenir un beau résumé, mais si ce n'est pas ce que je veux, je n'ai pas de chance. Si je veux vraiment qu'il comprenne mon contexte, je dois revenir aux anciens modèles. Oh attendez, ceux-ci sont maintenant déclassés ou affichent au moins 2 000 jetons de longueur de contexte maximum (par rapport aux 8 000 jetons précédents par exemple).
Je pense que demander une longueur de contexte de 128 000 jetons avec la même qualité que 8 000 par exemple, alors que c'est plus rapide et moins cher, c'est un peu stupide. Mais je ne peux m'empêcher de penser que pour le codage et de nombreuses tâches du monde réel, c'est à la limite de l'inutilisable (du moins pour moi et mes cas d'utilisation).
Je vais juste clarifier quelques points ici. Je n'ai pas eu de problème avec le système d'exploitation, donc mon entrée + sortie était bien en dessous de 4 000 jetons (limite de la sortie actuellement). GPT 3.5 et GPT 4 avec un contexte plus court pouvaient gérer le code sans compression, donc c'est un problème qui n'affecte que GPT-4 Turbo (preview). Cette limitation est une chose qui ne peut pas être contournée par une "ingénierie rapide".
OpenAI a dévoilé GPT-4 Turbo cette semaine et l'a présenté comme une version améliorée de son puissant grand modèle de langage (LLM) GPT-4. L'une des principales améliorations de GPT-4 Turbo est l'agrandissement de la fenêtre contextuelle. Le contexte fait référence à la quantité de texte que le modèle de langage peut traiter en même temps. GPT-4 Turbo peut traiter jusqu'à 128 000 jetons, soit l'équivalent d'environ 300 pages de texte. Il s'agit de l'une des plus grandes fenêtres contextuelles de tous les LLM actuels (Claude 2 n'offre que 100 000 jetons). Le modèle GPT-4, quant à lui, est limité à un nombre plus modeste de 8 000 tokens, soit 24 pages.
OpenAI claims GPT4-turbo is “better” than GPT4, but I ran my own tests and don’t think that's true.
— Jeffrey Wang (@wangzjeff) November 7, 2023
I benchmarked on SAT reading, which is a nice human reference for reasoning ability. Took 3 sections (67 questions) from an official 2008-2009 test (2400 scale) and got the… pic.twitter.com/LzIYS3R9ny
La fenêtre contextuelle plus large permet à GPT-4 Turbo de comprendre en profondeur davantage d'informations et d'établir des liens entre des documents plus vastes. Avec plus de contexte, l'IA peut fournir des réponses plus "intelligentes" et plus nuancées que les quelques dernières phrases qu'elle a lues. Cette connaissance élargie conduit à des conversations plus cohérentes et à une analyse plus réfléchie. De plus, la base de connaissances de GPT-4 Turbo a été mise à jour à avril 2023, alors que celle de GPT-4 est limitée à septembre 2021. Grâce à ce changement, GPT-4 Turbo peut discuter et comprendre les derniers événements, recherches et faits.
Selon OpenAI, pour un modèle d'IA, il est essentiel de rester à jour. Des connaissances obsolètes conduisent à des réponses incorrectes ou ignorantes. L'actualisation des connaissances de GPT-4 Turbo lui permet de rester pertinent et utile pour les conversations d'aujourd'hui. En plus, l'utilisation de GPT-4 Turbo est moins coûteuse pour les développeurs. L'entrée ne coûte que 0,01 $ pour 1 000 jetons, contre 0,03 $ pour GPT-4. Le coût de sortie...
La fin de cet article est réservée aux abonnés. Soutenez le Club Developpez.com en prenant un abonnement pour que nous puissions continuer à vous proposer des publications.