IdentifiantMot de passe
Loading...
Mot de passe oublié ?Je m'inscris ! (gratuit)

Vous êtes nouveau sur Developpez.com ? Créez votre compte ou connectez-vous afin de pouvoir participer !

Vous devez avoir un compte Developpez.com et être connecté pour pouvoir participer aux discussions.

Vous n'avez pas encore de compte Developpez.com ? Créez-en un en quelques instants, c'est entièrement gratuit !

Si vous disposez déjà d'un compte et qu'il est bien activé, connectez-vous à l'aide du formulaire ci-dessous.

Identifiez-vous
Identifiant
Mot de passe
Mot de passe oublié ?
Créer un compte

L'inscription est gratuite et ne vous prendra que quelques instants !

Je m'inscris !

Anthropic lance les modèles Claude 4 qui peuvent travailler de manière autonome pendant presque toute une journée de travail en entreprise, établissant de nouvelles normes en matière de codage et d'agents IA

Le , par Anthony

5PARTAGES

4  0 
Anthropic a lancé Claude Opus 4 et Claude Sonnet 4, positionnant Opus 4 comme le meilleur modèle de codage au monde avec 72,5 % de performance sur SWE-bench et 43,2 % sur Terminal-bench. Les deux modèles sont dotés d'une architecture hybride permettant des réponses quasi instantanées et des modes de réflexion étendus pour les tâches de raisonnement complexes.

Les modèles Claude 4, lancés ce 22 mai 2025, introduisent des capacités parallèles d'exécution d'outils et de mémoire qui permettent à Claude d'extraire et de sauvegarder des faits clés lorsqu'il dispose d'un accès local aux fichiers. D'après Anthropic, Claude Opus 4 est le meilleur modèle de codage au monde, avec des performances soutenues sur des tâches complexes et de longue durée et des flux de travail d'agents. Claude Sonnet 4 est, quant à lui, une mise à jour significative de Claude Sonnet 3.7, offrant un codage et un raisonnement supérieurs tout en répondant plus précisément aux instructions des utilisateurs.


Anthropic, qui compte Amazon et Google parmi ses investisseurs, a déclaré que Claude Opus 4 pouvait travailler de manière autonome pendant presque une journée de travail complète.

« Je rédige beaucoup avec Claude, et je pense qu'avant Opus 4 et Sonnet 4, j'utilisais surtout les modèles comme partenaire de réflexion, mais je rédigeais moi-même la plupart des textes », a déclaré Mike Krieger, directeur des produits d'Anthropic, lors d'une interview. « Et ils ont franchi ce seuil où maintenant la plupart de mes écrits sont en fait ... [écrits avec] Opus principalement, et ils sont maintenant méconnaissables de mes écrits ».

Mike Krieger a ajouté : « J'aime le fait que nous repoussons la frontière de deux côtés. D'une part, il y a le codage et le comportement agentique en général, et c'est ce qui alimente un grand nombre de ces startups de codage. ... Mais nous repoussons également les limites de la manière dont ces modèles peuvent apprendre et devenir des partenaires d'écriture très utiles. »

Parallèlement aux modèles Claude 4, Anthropic a également annoncé :

  • Le raisonnement avancé avec utilisation d'outils (en bêta) : Les deux modèles peuvent utiliser des outils - comme la recherche sur Internet - pendant le raisonnement étendu, ce qui permet à Claude d'alterner entre la réflexion et l'utilisation d'outils pour améliorer les réponses.
  • De nouvelles capacités pour les modèles : Les deux modèles peuvent utiliser des outils en parallèle, suivre des instructions avec plus de précision et, lorsque les développeurs leur donnent accès aux fichiers locaux, faire preuve de capacités de mémorisation considérablement améliorées, en extrayant et en sauvegardant des faits clés pour maintenir la continuité et construire une connaissance tacite au fil du temps.
  • La disponibilité générale de Claude Code : Après avoir reçu de nombreux commentaires positifs lors de son aperçu de recherche, Anthropic a élargi la façon dont les développeurs peuvent collaborer avec Claude. Claude Code prend désormais en charge les tâches d'arrière-plan via GitHub Actions et les intégrations natives avec VS Code et JetBrains, affichant les modifications directement dans les fichiers des utilisateurs pour une programmation en binôme transparente. L'intégration de GitHub permet en outre à Claude de répondre aux demandes de commentaires et de corriger les erreurs d'intégration continue (CI) grâce à un nouveau SDK en version bêta.
  • Nouvelles fonctionnalités de l'API : Anthropic a publié quatre nouvelles capacités sur son API qui permettent aux développeurs de construire des agents d'IA plus puissants : l'outil d'exécution de code, le connecteur MCP, l'API Fichiers et la possibilité de mettre en cache les invites jusqu'à une heure.

Concernant la tarification, elle reste cohérente avec les modèles Opus et Sonnet précédents : 15 $/75 $ par million de jetons (entrée/sortie) pour Opus 4 et 3 $/15 $ pour Sonnet 4. Les deux modèles sont disponibles via l'interface web de Claude, l'API Anthropic, Amazon Bedrock et Vertex IA de Google Cloud. Les capacités de réflexion étendues sont incluses dans les plans Claude Pro, Max, Team et Enterprise, Sonnet 4 étant également disponible pour les utilisateurs gratuits.

Claude 4

Selon Antropic, Claude Opus 4 est son modèle le plus puissant à ce jour et le meilleur modèle de codage au monde, en tête du SWE-bench (72,5 %) et du Terminal-bench (43,2 %). Il offre des performances soutenues sur des tâches de longue durée qui nécessitent un effort ciblé et des milliers d'étapes, avec la capacité de travailler en continu pendant plusieurs heures - surpassant de manière remarquable tous les modèles Sonnet et élargissant de manière significative ce que les agents d'IA peuvent accomplir.


Claude Opus 4 excelle dans le codage et la résolution de problèmes complexes, alimentant des produits d'agents d'avant-garde. Cursor estime qu'il est à la pointe du progrès en matière de codage et qu'il représente un bond en avant dans la compréhension des bases de code complexes. Replit fait état d'une précision accrue et d'avancées spectaculaires pour les modifications complexes effectuées sur plusieurs fichiers. Block l'appelle le premier modèle à améliorer la qualité du code pendant l'édition et le débogage dans son agent, nom de code goose, tout en maintenant des performances et une fiabilité totales. Rakuten a validé ses capacités avec un refactor open-source exigeant fonctionnant indépendamment pendant 7 heures avec des performances soutenues. Cognition note qu'Opus 4 excelle à résoudre des défis complexes que d'autres modèles ne peuvent pas relever, en gérant avec succès des actions critiques que les modèles précédents n'ont pas réussi à réaliser.

Claude Sonnet 4 améliore de manière significative les capacités de Sonnet 3.7, excellant dans le codage avec un taux de 72.7 % sur SWE-bench. Le modèle équilibre la performance et l'efficacité pour les cas d'utilisation internes et externes, avec une orientation améliorée pour un plus grand contrôle sur les implémentations. Bien qu'il n'égale pas Opus 4 dans la plupart des domaines, il offre un mélange optimal de capacités et de praticité.


GitHub affirme que Claude Sonnet 4 monte en flèche dans les scénarios agentiques et l'introduira comme modèle alimentant le nouvel agent de codage dans GitHub Copilot. Manus souligne ses améliorations en matière de suivi d'instructions complexes, de raisonnement clair et de résultats esthétiques. iGent rapporte que Sonnet 4 excelle dans le développement autonome d'applications multifonctionnelles, ainsi que dans la résolution de problèmes et la navigation dans la base de code, réduisant les erreurs de navigation de 20 % à près de zéro. Sourcegraph affirme que le modèle est prometteur en tant que saut substantiel dans le développement de logiciels - en restant sur la bonne voie plus longtemps, en comprenant les problèmes plus profondément et en fournissant une qualité de code plus élégante. Augment Code fait état de taux de réussite plus élevés, d'éditions de code plus chirurgicales et d'un travail plus minutieux dans le cadre de tâches complexes, ce qui en fait le premier choix pour leur modèle principal.

Ces modèles font progresser les stratégies d'IA des clients d'Anthropic dans tous les domaines : Opus 4 repousse les limites du codage, de la recherche, de l'écriture et de la découverte scientifique, tandis que Sonnet 4 apporte des performances de pointe aux cas d'utilisation quotidiens en tant que mise à niveau instantanée de Sonnet 3.7.

Améliorations du modèle

En plus de l'extension du raisonnement à l'utilisation d'outils, de l'exécution parallèle d'outils et de l'amélioration de la mémoire, Anthropic a considérablement réduit les comportements où les modèles utilisent des raccourcis ou des détours pour accomplir des tâches. Les deux modèles sont 65 % moins susceptibles d'adopter ce comportement que Sonnet 3.7 sur les tâches agentiques qui sont particulièrement sensibles aux raccourcis et aux échappatoires.

Claude Opus 4 surpasse également de manière significative tous les modèles précédents en ce qui concerne les capacités de mémoire. Lorsque les développeurs créent des applications qui permettent à Claude d'accéder à des fichiers locaux, Opus 4 devient capable de créer et de maintenir des « fichiers mémoire » pour stocker des informations clés. Cela permet d'améliorer la conscience des tâches à long terme, la cohérence et la performance des tâches de l'agent, comme Opus 4 qui crée un « guide de navigation » lorsqu'il joue à Pokémon.


Enfin, Anthropic a introduit des résumés de réflexion pour les modèles Claude 4 qui utilisent un modèle plus petit pour condenser les longs processus de réflexion. Ce résumé n'est nécessaire que dans environ 5 % des cas - la plupart des processus de raisonnement sont suffisamment courts pour être affichés dans leur intégralité. Anthropic recommande aux utilisateurs qui ont besoin...
La fin de cet article est réservée aux abonnés. Soutenez le Club Developpez.com en prenant un abonnement pour que nous puissions continuer à vous proposer des publications.

Une erreur dans cette actualité ? Signalez-nous-la !