Anthropic vient de sortir ses nouveaux modèles Claude 3 avec des évaluations montrant de meilleures performances sur les tâches de codage. Dans cette optique, un test a été fait sur les nouveaux modèles en utilisant la suite de tests d'édition de code d'Aider.
Claude 3 Opus surpasse tous les modèles d'OpenAI, ce qui en fait le meilleur modèle disponible pour la programmation en binôme avec l'IA.
Aider supporte actuellement Claude 3 Opus via OpenRouter :
Code : | Sélectionner tout |
1 2 3 4 5 6 7 8 9 | # Install aider pip install aider-chat # Setup OpenRouter access export OPENAI_API_KEY=<your-openrouter-key> export OPENAI_API_BASE=https://openrouter.ai/api/v1 # Run aider with Claude 3 Opus using the diff editing format aider --model anthropic/claude-3-opus --edit-format diff |
Le benchmark d'édition de code d'Aider
Aider est un outil de chat en ligne de commande open source qui vous permet de programmer en binôme avec l'IA sur du code dans votre dépôt git local.
Aider s'appuie sur un benchmark d'édition de code pour évaluer quantitativement la capacité d'un LLM à apporter des modifications à un code existant. Le benchmark utilise Aider pour essayer de compléter 133 exercices de codage Python d'Exercism. Pour chaque exercice, Exercism fournit un fichier Python de départ avec les fonctions nécessaires, une description en langage naturel du problème à résoudre et une suite de tests pour évaluer si le codeur a correctement résolu le problème.
Le LLM a deux essais pour résoudre chaque problème :
- Au premier essai, il obtient le code initial et la description en anglais de la tâche de codage. Si tous les tests sont réussis, c'est terminé.
- Si l'un des tests a échoué, Aider envoie au LLM la sortie du test qui a échoué et lui donne une deuxième chance de terminer la tâche.
Résultats des tests de référence
Claude 3 Opus
- Le nouveau modèle claude-3-opus-20240229 a obtenu le score le plus élevé jamais obtenu pour ce test de référence, réalisant 68,4 % des tâches en deux essais.
- Ses performances en un seul essai sont comparables à celles du dernier modèle GPT-4 Turbo gpt-4-0125-preview, avec 54,1 %.
- Si Opus a obtenu le score le plus élevé, il n'est que de quelques points supérieur aux résultats de GPT-4 Turbo. Compte tenu des coûts supplémentaires d'Opus et des temps de réponse plus lents, il reste à voir quel est le modèle le plus pratique pour l'utilisation quotidienne du codage.
Claude 3 Sonnet
- Le nouveau modèle claude-3-sonnet-20240229 a obtenu des résultats similaires à ceux des modèles GPT-3.5 Turbo d'OpenAI, avec un score global de 54,9 % et un score au premier essai de 43,6 %.
Édition du code
Il est très souhaitable que le LLM renvoie les modifications de code sous forme de diffs, plutôt que de renvoyer une copie mise à jour de l'ensemble du code source.
Les modèles faibles comme GPT-3.5 sont incapables d'utiliser les diffs et sont obligés de renvoyer des copies mises à jour de fichiers source entiers. Aider utilise des blocs de recherche/remplacement plus efficaces avec le GPT-4 original et des diffs unifiés avec les nouveaux modèles GPT-4 Turbo.
Claude 3 Opus fonctionne mieux avec les blocs de recherche/remplacement, ce qui lui permet de renvoyer des modifications de code de manière efficace. Malheureusement, le modèle Sonnet n'a pu fonctionner de manière fiable qu'avec des fichiers entiers, ce qui le limite à l'édition de fichiers sources plus petits et consomme plus de jetons, d'argent et de temps.
Autres observations
Quelques autres points méritent d'être soulignés :
- Claude 3 Opus et Sonnet sont tous deux plus lents et plus chers que les modèles d'OpenAI. Vous pouvez obtenir presque la même compétence de codage plus rapidement et à moindre coût avec les modèles d'OpenAI.
- Claude 3 a une fenêtre de contexte deux fois plus grande que le dernier GPT-4 Turbo, ce qui peut être un avantage lorsque l'on travaille avec des bases de code plus importantes.
- Les modèles Claude ont refusé d'effectuer un certain nombre de tâches de codage et ont renvoyé l'erreur "Output blocked by content filtering policy" (sortie bloquée par la politique de filtrage du contenu). Ils ont refusé de coder le programme de chansons sur la bière, ce qui est assez logique. Mais ils ont également refusé de travailler dans certaines bases de code open source plus importantes, pour des raisons obscures.
- Les API de Claude semblent quelque peu instables, renvoyant des erreurs HTTP 5xx de toutes sortes. Aider récupère automatiquement ces erreurs avec des tentatives exponentielles, mais c'est un signe qu'Anthropic pourrait être en train de lutter contre une demande croissante.
Source : Aider
Et vous ?
Pensez-vous que ces résultats sont crédibles ou pertinents ?
Quel est votre avis sur le sujet ?
Voir aussi :
Claude 3 Opus devient le nouveau roi et sa variante la plus petite "Haiku" égale les performances d'une version de GPT-4, ce qui met la pression sur OpenAI et son prochain modèle d'IA GPT-5
GPT-4 Turbo est-il vraiment plus puissant et plus performant ? Les résultats des benchmarks et les avis sont partagés sur l'édition de code et les autres usages
Anthropic, une startup soutenue par Google, lance la suite de modèles d'IA "Claude 3". Le modèle Claude 3 Opus surpassant les modèles concurrents GPT-4 et Gemini 1.0 Ultra