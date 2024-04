Au premier essai, il obtient le code initial et la description en anglais de la tâche de codage. Si tous les tests sont réussis, l'exercice est terminé. Si l'un des tests échoue, l'aide envoie au LLM la sortie du test qui a échoué et lui donne une deuxième chance de terminer la tâche.

Code : Sélectionner tout 1

2

def some_complex_method ( foo, bar ) : # ... implement method here ...

model gpt- 4 -turbo- 2024 - 04 -09

gpt- 4 - 1106 -preview par défaut

Aider s'appuie sur un benchmark d'édition de code pour évaluer quantitativement la capacité d'un LLM à apporter des modifications à un code existant. Le benchmark utilise Exercism Python.Pour chaque exercice, le LLM dispose de deux essais pour résoudre chaque problème :Les autres modèles ont obtenu un score de 63-66%, ce qui ne représente donc qu'une petite régression et est probablement statistiquement insignifiant par rapport au modèleLes modèles GPT-4 Turbo "preview" ont été largement critiqués pour leur codage "paresseux". Ils omettent souvent le code nécessaire et laissent à la place des commentaires avec des devoirs comme "implement method here" (implémenter la méthode ici).Aider utilise une suite de tests de "paresse" conçue pour provoquer et quantifier le codage paresseux. Il s'agit de 89 tâches de refactorisation en python qui tendent à faire coder GPT-4 Turbo de manière paresseuse.Aider supporte pleinement le nouveau modèle GPT-4 Turbo with Vision, auquel vous pouvez accéder en utilisant le switch --. Mais Aider continuera à utiliser, car c'est de loin le codeur le plus puissant des modèles GPT-4.