![](https://www.developpez.com/images/logos/chatgpt.png)
Aider s'appuie sur un benchmark d'édition de code pour évaluer quantitativement la capacité d'un LLM à apporter des modifications à un code existant. Le benchmark utilise Aider pour essayer de compléter 133 exercices de codage Exercism Python.
Pour chaque exercice, le LLM dispose de deux essais pour résoudre chaque problème :
- Au premier essai, il obtient le code initial et la description en anglais de la tâche de codage. Si tous les tests sont réussis, l'exercice est terminé.
- Si l'un des tests échoue, l'aide envoie au LLM la sortie du test qui a échoué et lui donne une deuxième chance de terminer la tâche.
GPT-4 Turbo with Vision n'obtient qu'un score de 62 % sur ce benchmark, le score le plus bas de tous les modèles GPT-4 existants. Les autres modèles ont obtenu un score de 63-66%, ce qui ne représente donc qu'une petite régression et est probablement statistiquement insignifiant par rapport au modèle gpt-4-0613.
Codage paresseux
Les modèles GPT-4 Turbo "preview" ont été largement critiqués pour leur codage "paresseux". Ils omettent souvent le code nécessaire et laissent à la place des commentaires avec des devoirs comme "implement method here" (implémenter la méthode ici).
Code : | Sélectionner tout |
1 2 | def some_complex_method(foo, bar): # ... implement method here ... |
Le nouveau modèle GPT-4 Turbo avec Vision n'obtient que 34 % au test de refactorisation d'Aider, ce qui en fait le codeur le plus paresseux de tous les modèles GPT-4 Turbo, et ce avec une marge significative.
Conclusion
Aider supporte pleinement le nouveau modèle GPT-4 Turbo with Vision, auquel vous pouvez accéder en utilisant le switch --model gpt-4-turbo-2024-04-09. Mais Aider continuera à utiliser gpt-4-1106-preview par défaut, car c'est de loin le codeur le plus puissant des modèles GPT-4.
Source : Paul Gauthier d'Aider
Et vous ?
![:fleche:](https://www.developpez.net/forums/images/smilies/fleche.gif)
![:fleche:](https://www.developpez.net/forums/images/smilies/fleche.gif)
Voir aussi :
![:fleche:](https://www.developpez.net/forums/images/smilies/fleche.gif)
![:fleche:](https://www.developpez.net/forums/images/smilies/fleche.gif)
![:fleche:](https://www.developpez.net/forums/images/smilies/fleche.gif)