# Install aider pip install aider-chat # Setup OpenRouter access export OPENAI_API_KEY=<your-openrouter-key> export OPENAI_API_BASE=https: //openrouter.ai/api/v1 # Run aider with Claude 3 Opus using the diff editing format aider --model anthropic/claude- 3 -opus --edit-format diff

Au premier essai, il obtient le code initial et la description en anglais de la tâche de codage. Si tous les tests sont réussis, c'est terminé.



Si l'un des tests a échoué, Aider envoie au LLM la sortie du test qui a échoué et lui donne une deuxième chance de terminer la tâche.

Le nouveau modèle claude- 3 -opus- 20240229 a obtenu le score le plus élevé jamais obtenu pour ce test de référence, réalisant 68,4 % des tâches en deux essais.





a obtenu le score le plus élevé jamais obtenu pour ce test de référence, réalisant 68,4 % des tâches en deux essais. Ses performances en un seul essai sont comparables à celles du dernier modèle GPT-4 Turbo gpt- 4 - 01 25 -preview , avec 54,1 %.





, avec 54,1 %. Si Opus a obtenu le score le plus élevé, il n'est que de quelques points supérieur aux résultats de GPT-4 Turbo. Compte tenu des coûts supplémentaires d'Opus et des temps de réponse plus lents, il reste à voir quel est le modèle le plus pratique pour l'utilisation quotidienne du codage.

Le nouveau modèle claude- 3 -sonnet- 20240229 a obtenu des résultats similaires à ceux des modèles GPT-3.5 Turbo d'OpenAI, avec un score global de 54,9 % et un score au premier essai de 43,6 %.

Claude 3 Opus et Sonnet sont tous deux plus lents et plus chers que les modèles d'OpenAI. Vous pouvez obtenir presque la même compétence de codage plus rapidement et à moindre coût avec les modèles d'OpenAI.





Claude 3 a une fenêtre de contexte deux fois plus grande que le dernier GPT-4 Turbo, ce qui peut être un avantage lorsque l'on travaille avec des bases de code plus importantes.





Les modèles Claude ont refusé d'effectuer un certain nombre de tâches de codage et ont renvoyé l'erreur "Output blocked by content filtering policy" (sortie bloquée par la politique de filtrage du contenu). Ils ont refusé de coder le programme de chansons sur la bière, ce qui est assez logique. Mais ils ont également refusé de travailler dans certaines bases de code open source plus importantes, pour des raisons obscures.





Les API de Claude semblent quelque peu instables, renvoyant des erreurs HTTP 5xx de toutes sortes. Aider récupère automatiquement ces erreurs avec des tentatives exponentielles, mais c'est un signe qu'Anthropic pourrait être en train de lutter contre une demande croissante.

