
OpenAI vient de publier GPT-4 Turbo avec Vision et ses performances en matière de codage sont moins bonnes que celles de tous les modèles GPT-4 précédents. En particulier, il semble beaucoup plus enclin au "codage paresseux" que les modèles prévus existants de GPT-4 Turbo.
Aider s'appuie sur un benchmark d'édition de code pour évaluer quantitativement la capacité d'un LLM à apporter des modifications à un code existant. Le benchmark utilise Aider pour essayer de compléter 133 exercices de codage Exercism Python.
Pour chaque exercice, le LLM dispose de deux essais pour résoudre chaque problème :
- Au premier essai, il obtient le code initial et la description en anglais de la tâche de codage. Si tous les tests sont réussis, l'exercice est terminé.
- Si l'un des tests échoue, l'aide envoie au LLM la sortie du test qui a échoué et lui donne une deuxième chance de terminer la tâche.
GPT-4 Turbo with Vision n'obtient qu'un score de 62 % sur ce benchmark, le score le plus bas de tous les modèles GPT-4 existants. Les autres modèles ont obtenu un score de 63-66%, ce qui ne représente donc qu'une petite régression et est probablement statistiquement insignifiant par rapport au modèle gpt-4-0613.
Codage paresseux
Les modèles GPT-4 Turbo "preview" ont été largement critiqués pour leur codage "paresseux". Ils omettent souvent le code nécessaire et laissent à la place des commentaires avec des devoirs comme "implement method here" (implémenter la méthode ici).
Code : | Sélectionner tout |
1 2 | def some_complex_method(foo, bar): # ... implement method here ... |
Le nouveau modèle GPT-4 Turbo avec Vision n'obtient que 34 % au test de refactorisation d'Aider, ce qui en fait le codeur le plus paresseux de tous les modèles GPT-4 Turbo, et ce avec une marge significative.
Conclusion
Aider supporte pleinement le nouveau modèle GPT-4 Turbo with Vision, auquel vous pouvez accéder en utilisant le switch --model gpt-4-turbo-2024-04-09. Mais Aider continuera à utiliser gpt-4-1106-preview par défaut, car c'est de loin le codeur le plus puissant des modèles GPT-4.
Source : Paul Gauthier d'Aider
Et vous ?


Voir aussi :



Vous avez lu gratuitement 9 articles depuis plus d'un an.
Soutenez le club developpez.com en souscrivant un abonnement pour que nous puissions continuer à vous proposer des publications.
Soutenez le club developpez.com en souscrivant un abonnement pour que nous puissions continuer à vous proposer des publications.