GPT-4 Turbo avec Vision est un pas en arrière pour le codage~? il semble beaucoup plus enclin au "codage paresseux"

D'après Paul Gauthier d'Aider

Le 2024-04-10 14:35:02, par Jade Emy, Communiqués de presse

OpenAI vient de publier GPT-4 Turbo avec Vision et ses performances en matière de codage sont moins bonnes que celles de tous les modèles GPT-4 précédents. En particulier, il semble beaucoup plus enclin au "codage paresseux" que les modèles prévus existants de GPT-4 Turbo.

Aider s'appuie sur un benchmark d'édition de code pour évaluer quantitativement la capacité d'un LLM à apporter des modifications à un code existant. Le benchmark utilise Aider pour essayer de compléter 133 exercices de codage Exercism Python.

Pour chaque exercice, le LLM dispose de deux essais pour résoudre chaque problème :

Au premier essai, il obtient le code initial et la description en anglais de la tâche de codage. Si tous les tests sont réussis, l'exercice est terminé.
Si l'un des tests échoue, l'aide envoie au LLM la sortie du test qui a échoué et lui donne une deuxième chance de terminer la tâche.

GPT-4 Turbo with Vision n'obtient qu'un score de 62 % sur ce benchmark, le score le plus bas de tous les modèles GPT-4 existants. Les autres modèles ont obtenu un score de 63-66%, ce qui ne représente donc qu'une petite régression et est probablement statistiquement insignifiant par rapport au modèle gpt-4-0613.

Codage paresseux

Les modèles GPT-4 Turbo "preview" ont été largement critiqués pour leur codage "paresseux". Ils omettent souvent le code nécessaire et laissent à la place des commentaires avec des devoirs comme "implement method here" (implémenter la méthode ici).

Code :

1
2
def some_complex_method(foo, bar):
    # ... implement method here ...

Aider utilise une suite de tests de "paresse" conçue pour provoquer et quantifier le codage paresseux. Il s'agit de 89 tâches de refactorisation en python qui tendent à faire coder GPT-4 Turbo de manière paresseuse.

Le nouveau modèle GPT-4 Turbo avec Vision n'obtient que 34 % au test de refactorisation d'Aider, ce qui en fait le codeur le plus paresseux de tous les modèles GPT-4 Turbo, et ce avec une marge significative.

Conclusion

Aider supporte pleinement le nouveau modèle GPT-4 Turbo with Vision, auquel vous pouvez accéder en utilisant le switch --model gpt-4-turbo-2024-04-09. Mais Aider continuera à utiliser gpt-4-1106-preview par défaut, car c'est de loin le codeur le plus puissant des modèles GPT-4.

Source : Paul Gauthier d'Aider

Et vous ?

Pensez-vous que ces résultats sont crédibles ou pertinents ?
Quel est votre avis sur le sujet ?

Voir aussi :

OpenAI annonce que GPT-4 Turbo with Vision est désormais disponible dans l'API, apportant aux développeurs la prise en charge du mode JSON et l'appel de fonctions pour les requêtes Vision

GPT-4 Turbo est-il vraiment plus puissant et plus performant ? Les résultats des benchmarks et les avis sont partagés sur l'édition de code et les autres usages

Aider, outil en ligne de commande pour programmer avec GPT-3.5 et GPT-4, et éditer le code stocké dans un dépôt git local, le meilleur assistant de codage IA à ce jour

Discussion forum

8 commentaires