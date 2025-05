Le raisonnement avancé avec utilisation d'outils (en bêta) : Les deux modèles peuvent utiliser des outils - comme la recherche sur Internet - pendant le raisonnement étendu, ce qui permet à Claude d'alterner entre la réflexion et l'utilisation d'outils pour améliorer les réponses.

Claude 4

Améliorations du modèle

Les modèles Claude 4, lancés ce 22 mai 2025, introduisent des capacités parallèles d'exécution d'outils et de mémoire qui permettent à Claude d'extraire et de sauvegarder des faits clés lorsqu'il dispose d'un accès local aux fichiers. D'après Anthropic, Claude Opus 4 est le meilleur modèle de codage au monde, avec des performances soutenues sur des tâches complexes et de longue durée et des flux de travail d'agents. Claude Sonnet 4 est, quant à lui, une mise à jour significative de Claude Sonnet 3.7, offrant un codage et un raisonnement supérieurs tout en répondant plus précisément aux instructions des utilisateurs.Anthropic, qui compte Amazon et Google parmi ses investisseurs, a déclaré que Claude Opus 4 pouvait travailler de manière autonome pendant presque une journée de travail complète.« Je rédige beaucoup avec Claude, et je pense qu'avant Opus 4 et Sonnet 4, j'utilisais surtout les modèles comme partenaire de réflexion, mais je rédigeais moi-même la plupart des textes », a déclaré Mike Krieger, directeur des produits d'Anthropic, lors d'une interview. « Et ils ont franchi ce seuil où maintenant la plupart de mes écrits sont en fait ... [écrits avec] Opus principalement, et ils sont maintenant méconnaissables de mes écrits ».Mike Krieger a ajouté : « J'aime le fait que nous repoussons la frontière de deux côtés. D'une part, il y a le codage et le comportement agentique en général, et c'est ce qui alimente un grand nombre de ces startups de codage. ... Mais nous repoussons également les limites de la manière dont ces modèles peuvent apprendre et devenir des partenaires d'écriture très utiles. »Parallèlement aux modèles Claude 4, Anthropic a également annoncé :Concernant la tarification, elle reste cohérente avec les modèles Opus et Sonnet précédents : 15 $/75 $ par million de jetons (entrée/sortie) pour Opus 4 et 3 $/15 $ pour Sonnet 4. Les deux modèles sont disponibles via l'interface web de Claude, l'API Anthropic, Amazon Bedrock et Vertex IA de Google Cloud. Les capacités de réflexion étendues sont incluses dans les plans Claude Pro, Max, Team et Enterprise, Sonnet 4 étant également disponible pour les utilisateurs gratuits.Selon Antropic, Claude Opus 4 est son modèle le plus puissant à ce jour et le meilleur modèle de codage au monde, en tête du SWE-bench (72,5 %) et du Terminal-bench (43,2 %). Il offre des performances soutenues sur des tâches de longue durée qui nécessitent un effort ciblé et des milliers d'étapes, avec la capacité de travailler en continu pendant plusieurs heures - surpassant de manière remarquable tous les modèles Sonnet et élargissant de manière significative ce que les agents d'IA peuvent accomplir.excelle dans le codage et la résolution de problèmes complexes, alimentant des produits d'agents d'avant-garde. Cursor estime qu'il est à la pointe du progrès en matière de codage et qu'il représente un bond en avant dans la compréhension des bases de code complexes. Replit fait état d'une précision accrue et d'avancées spectaculaires pour les modifications complexes effectuées sur plusieurs fichiers. Block l'appelle le premier modèle à améliorer la qualité du code pendant l'édition et le débogage dans son agent, nom de code goose, tout en maintenant des performances et une fiabilité totales. Rakuten a validé ses capacités avec un refactor open-source exigeant fonctionnant indépendamment pendant 7 heures avec des performances soutenues. Cognition note qu'Opus 4 excelle à résoudre des défis complexes que d'autres modèles ne peuvent pas relever, en gérant avec succès des actions critiques que les modèles précédents n'ont pas réussi à réaliser.améliore de manière significative les capacités de Sonnet 3.7, excellant dans le codage avec un taux de 72.7 % sur SWE-bench. Le modèle équilibre la performance et l'efficacité pour les cas d'utilisation internes et externes, avec une orientation améliorée pour un plus grand contrôle sur les implémentations. Bien qu'il n'égale pas Opus 4 dans la plupart des domaines, il offre un mélange optimal de capacités et de praticité.GitHub affirme que Claude Sonnet 4 monte en flèche dans les scénarios agentiques et l'introduira comme modèle alimentant le nouvel agent de codage dans GitHub Copilot. Manus souligne ses améliorations en matière de suivi d'instructions complexes, de raisonnement clair et de résultats esthétiques. iGent rapporte que Sonnet 4 excelle dans le développement autonome d'applications multifonctionnelles, ainsi que dans la résolution de problèmes et la navigation dans la base de code, réduisant les erreurs de navigation de 20 % à près de zéro. Sourcegraph affirme que le modèle est prometteur en tant que saut substantiel dans le développement de logiciels - en restant sur la bonne voie plus longtemps, en comprenant les problèmes plus profondément et en fournissant une qualité de code plus élégante. Augment Code fait état de taux de réussite plus élevés, d'éditions de code plus chirurgicales et d'un travail plus minutieux dans le cadre de tâches complexes, ce qui en fait le premier choix pour leur modèle principal.Ces modèles font progresser les stratégies d'IA des clients d'Anthropic dans tous les domaines : Opus 4 repousse les limites du codage, de la recherche, de l'écriture et de la découverte scientifique, tandis que Sonnet 4 apporte des performances de pointe aux cas d'utilisation quotidiens en tant que mise à niveau instantanée de Sonnet 3.7.En plus de l'extension du raisonnement à l'utilisation d'outils, de l'exécution parallèle d'outils et de l'amélioration de la mémoire, Anthropic a considérablement réduit les comportements où les modèles utilisent des raccourcis ou des détours pour accomplir des tâches. Les deux modèles sont 65 % moins susceptibles d'adopter ce comportement que Sonnet 3.7 sur les tâches agentiques qui sont particulièrement sensibles aux raccourcis et aux échappatoires.Claude Opus 4 surpasse également de manière significative tous les modèles précédents en ce qui concerne les capacités de mémoire. Lorsque les développeurs créent des applications qui permettent à Claude d'accéder à des fichiers locaux, Opus 4 devient capable de créer et de maintenir des « fichiers mémoire » pour stocker des informations clés. Cela permet d'améliorer la conscience des tâches à long terme, la cohérence et la performance des tâches de l'agent, comme Opus 4 qui crée un « guide de navigation » lorsqu'il joue à Pokémon.Enfin, Anthropic a introduit des résumés de réflexion pour les modèles Claude 4 qui utilisent un modèle plus petit pour condenser les longs processus de réflexion. Ce résumé n'est nécessaire que dans environ 5 % des cas - la plupart des processus de raisonnement sont suffisamment courts pour être affichés dans leur intégralité. Anthropic recommande aux utilisateurs qui ont besoin...