Aider s'appuie sur un benchmark d'édition de code pour évaluer quantitativement la capacité d'un LLM à apporter des modifications à un code existant. Le benchmark utilise Aider pour essayer de compléter 133 exercices de codage Exercism Python.
Pour chaque exercice, le LLM dispose de deux essais pour résoudre chaque problème :
- Au premier essai, il obtient le code initial et la description en anglais de la tâche de codage. Si tous les tests sont réussis, l'exercice est terminé.
- Si l'un des tests échoue, l'aide envoie au LLM la sortie du test qui a échoué et lui donne une deuxième chance de terminer la tâche.
GPT-4 Turbo with Vision n'obtient qu'un score de 62 % sur ce benchmark, le score le plus bas de tous les modèles GPT-4 existants. Les autres modèles ont obtenu un score de 63-66%, ce qui ne représente donc qu'une petite régression et est probablement statistiquement insignifiant par rapport au modèle gpt-4-0613.
Codage paresseux
Les modèles GPT-4 Turbo "preview" ont été largement critiqués pour leur codage "paresseux". Ils omettent souvent le code nécessaire et laissent à la place des commentaires avec des devoirs comme "implement method here" (implémenter la méthode ici).
Code : | Sélectionner tout |
1 2 | def some_complex_method(foo, bar): # ... implement method here ... |
Le nouveau modèle GPT-4 Turbo avec Vision n'obtient que 34 % au test de refactorisation d'Aider, ce qui en fait le codeur le plus paresseux de tous les modèles GPT-4 Turbo, et ce avec une marge significative.
Conclusion
Aider supporte pleinement le nouveau modèle GPT-4 Turbo with Vision, auquel vous pouvez accéder en utilisant le switch --model gpt-4-turbo-2024-04-09. Mais Aider continuera à utiliser gpt-4-1106-preview par défaut, car c'est de loin le codeur le plus puissant des modèles GPT-4.
Source : Paul Gauthier d'Aider
Et vous ?
Pensez-vous que ces résultats sont crédibles ou pertinents ?
Quel est votre avis sur le sujet ?
Voir aussi :
OpenAI annonce que GPT-4 Turbo with Vision est désormais disponible dans l'API, apportant aux développeurs la prise en charge du mode JSON et l'appel de fonctions pour les requêtes Vision
GPT-4 Turbo est-il vraiment plus puissant et plus performant ? Les résultats des benchmarks et les avis sont partagés sur l'édition de code et les autres usages
Aider, outil en ligne de commande pour programmer avec GPT-3.5 et GPT-4, et éditer le code stocké dans un dépôt git local, le meilleur assistant de codage IA à ce jour