GPT-4 Turbo avec Vision est un pas en arrière pour le codage, il semble beaucoup plus enclin au "codage paresseux", d'après Paul Gauthier d'AiderOpenAI vient de publier GPT-4 Turbo avec Vision et ses performances en matière de codage sont moins bonnes que celles de tous les modèles GPT-4 précédents. En particulier, il semble beaucoup plus enclin au "codage paresseux" que les modèles prévus existants de GPT-4 Turbo.
Aider s'appuie sur un benchmark d'édition de code pour évaluer quantitativement la capacité d'un LLM à apporter des modifications à un code existant. Le benchmark utilise Aider pour essayer de compléter 133 exercices de codage Exercism Python.
Pour chaque exercice, le LLM dispose de deux essais pour résoudre chaque problème :
- Au premier essai, il obtient le code initial et la description en anglais de la tâche de codage. Si tous les tests sont réussis, l'exercice est terminé.
 - Si l'un des tests échoue, l'aide envoie au LLM la sortie du test qui a échoué et lui donne une deuxième chance de terminer la tâche.
 
GPT-4 Turbo with Vision n'obtient qu'un score de 62 % sur ce benchmark, le score le plus bas de tous les modèles GPT-4 existants. Les autres modèles ont obtenu un score de 63-66%, ce qui ne représente donc qu'une petite régression et est probablement statistiquement insignifiant par rapport au modèle gpt-4-0613.
Codage paresseux
Les modèles GPT-4 Turbo "preview" ont été largement critiqués pour leur codage "paresseux". Ils omettent souvent le code nécessaire et laissent à la place des commentaires avec des devoirs comme "implement method here" (implémenter la méthode ici).
| Code : | Sélectionner tout | 
1 2  | def some_complex_method(foo, bar):
    # ... implement method here ... | 
Le nouveau modèle GPT-4 Turbo avec Vision n'obtient que 34 % au test de refactorisation d'Aider, ce qui en fait le codeur le plus paresseux de tous les modèles GPT-4 Turbo, et ce avec une marge significative.
Conclusion
Aider supporte pleinement le nouveau modèle GPT-4 Turbo with Vision, auquel vous pouvez accéder en utilisant le switch --model gpt-4-turbo-2024-04-09. Mais Aider continuera à utiliser gpt-4-1106-preview par défaut, car c'est de loin le codeur le plus puissant des modèles GPT-4.
Source : Paul Gauthier d'Aider
Et vous ?
 Pensez-vous que ces résultats sont crédibles ou pertinents ?
 Quel est votre avis sur le sujet ?Voir aussi :
 OpenAI annonce que GPT-4 Turbo with Vision est désormais disponible dans l'API, apportant aux développeurs la prise en charge du mode JSON et l'appel de fonctions pour les requêtes Vision
 GPT-4 Turbo est-il vraiment plus puissant et plus performant ? Les résultats des benchmarks et les avis sont partagés sur l'édition de code et les autres usages
 Aider, outil en ligne de commande pour programmer avec GPT-3.5 et GPT-4, et éditer le code stocké dans un dépôt git local, le meilleur assistant de codage IA à ce jour
Vous avez lu gratuitement 5 426 articles depuis plus d'un an.
Soutenez le club developpez.com en souscrivant un abonnement pour que nous puissions continuer à vous proposer des publications.
    Soutenez le club developpez.com en souscrivant un abonnement pour que nous puissions continuer à vous proposer des publications.