Anthropic lance les modèles Claude 4 qui peuvent travailler de manière autonome pendant presque toute une journée de travail en entreprise, établissant de nouvelles normes en matière de codage et d'agents IA

Le 23 mai 2025 à 09:30, par Anthony

50PARTAGES

Anthropic lance les modèles Claude 4 qui peuvent travailler de manière autonome pendant presque toute une journée de travail en entreprise, établissant de nouvelles normes en matière de codage et d'agents IA

Anthropic a lancé Claude Opus 4 et Claude Sonnet 4, positionnant Opus 4 comme le meilleur modèle de codage au monde avec 72,5 % de performance sur SWE-bench et 43,2 % sur Terminal-bench. Les deux modèles sont dotés d'une architecture hybride permettant des réponses quasi instantanées et des modes de réflexion étendus pour les tâches de raisonnement complexes.

Les modèles Claude 4, lancés ce 22 mai 2025, introduisent des capacités parallèles d'exécution d'outils et de mémoire qui permettent à Claude d'extraire et de sauvegarder des faits clés lorsqu'il dispose d'un accès local aux fichiers. D'après Anthropic, Claude Opus 4 est le meilleur modèle de codage au monde, avec des performances soutenues sur des tâches complexes et de longue durée et des flux de travail d'agents. Claude Sonnet 4 est, quant à lui, une mise à jour significative de Claude Sonnet 3.7, offrant un codage et un raisonnement supérieurs tout en répondant plus précisément aux instructions des utilisateurs.

Anthropic, qui compte Amazon et Google parmi ses investisseurs, a déclaré que Claude Opus 4 pouvait travailler de manière autonome pendant presque une journée de travail complète.

« Je rédige beaucoup avec Claude, et je pense qu'avant Opus 4 et Sonnet 4, j'utilisais surtout les modèles comme partenaire de réflexion, mais je rédigeais moi-même la plupart des textes », a déclaré Mike Krieger, directeur des produits d'Anthropic, lors d'une interview. « Et ils ont franchi ce seuil où maintenant la plupart de mes écrits sont en fait ... [écrits avec] Opus principalement, et ils sont maintenant méconnaissables de mes écrits ».

Mike Krieger a ajouté : « J'aime le fait que nous repoussons la frontière de deux côtés. D'une part, il y a le codage et le comportement agentique en général, et c'est ce qui alimente un grand nombre de ces startups de codage. ... Mais nous repoussons également les limites de la manière dont ces modèles peuvent apprendre et devenir des partenaires d'écriture très utiles. »

Parallèlement aux modèles Claude 4, Anthropic a également annoncé :

Le raisonnement avancé avec utilisation d'outils (en bêta) : Les deux modèles peuvent utiliser des outils - comme la recherche sur Internet - pendant le raisonnement étendu, ce qui permet à Claude d'alterner entre la réflexion et l'utilisation d'outils pour améliorer les réponses.
De nouvelles capacités pour les modèles : Les deux modèles peuvent utiliser des outils en parallèle, suivre des instructions avec plus de précision et, lorsque les développeurs leur donnent accès aux fichiers locaux, faire preuve de capacités de mémorisation considérablement améliorées, en extrayant et en sauvegardant des faits clés pour maintenir la continuité et construire une connaissance tacite au fil du temps.
La disponibilité générale de Claude Code : Après avoir reçu de nombreux commentaires positifs lors de son aperçu de recherche, Anthropic a élargi la façon dont les développeurs peuvent collaborer avec Claude. Claude Code prend désormais en charge les tâches d'arrière-plan via GitHub Actions et les intégrations natives avec VS Code et JetBrains, affichant les modifications directement dans les fichiers des utilisateurs pour une programmation en binôme transparente. L'intégration de GitHub permet en outre à Claude de répondre aux demandes de commentaires et de corriger les erreurs d'intégration continue (CI) grâce à un nouveau SDK en version bêta.
Nouvelles fonctionnalités de l'API : Anthropic a publié quatre nouvelles capacités sur son API qui permettent aux développeurs de construire des agents d'IA plus puissants : l'outil d'exécution de code, le connecteur MCP, l'API Fichiers et la possibilité de mettre en cache les invites jusqu'à une heure.

Concernant la tarification, elle reste cohérente avec les modèles Opus et Sonnet précédents : 15 $/75 $ par million de jetons (entrée/sortie) pour Opus 4 et 3 $/15 $ pour Sonnet 4. Les deux modèles sont disponibles via l'interface web de Claude, l'API Anthropic, Amazon Bedrock et Vertex IA de Google Cloud. Les capacités de réflexion étendues sont incluses dans les plans Claude Pro, Max, Team et Enterprise, Sonnet 4 étant également disponible pour les utilisateurs gratuits.

Claude 4

Selon Antropic, Claude Opus 4 est son modèle le plus puissant à ce jour et le meilleur modèle de codage au monde, en tête du SWE-bench (72,5 %) et du Terminal-bench (43,2 %). Il offre des performances soutenues sur des tâches de longue durée qui nécessitent un effort ciblé et des milliers d'étapes, avec la capacité de travailler en continu pendant plusieurs heures - surpassant de manière remarquable tous les modèles Sonnet et élargissant de manière significative ce que les agents d'IA peuvent accomplir.

Claude Opus 4 excelle dans le codage et la résolution de problèmes complexes, alimentant des produits d'agents d'avant-garde. Cursor estime qu'il est à la pointe du progrès en matière de codage et qu'il représente un bond en avant dans la compréhension des bases de code complexes. Replit fait état d'une précision accrue et d'avancées spectaculaires pour les modifications complexes effectuées sur plusieurs fichiers. Block l'appelle le premier modèle à améliorer la qualité du code pendant l'édition et le débogage dans son agent, nom de code goose, tout en maintenant des performances et une fiabilité totales. Rakuten a validé ses capacités avec un refactor open-source exigeant fonctionnant indépendamment pendant 7 heures avec des performances soutenues. Cognition note qu'Opus 4 excelle à résoudre des défis complexes que d'autres modèles ne peuvent pas relever, en gérant avec succès des actions critiques que les modèles précédents n'ont pas réussi à réaliser.

Claude Sonnet 4 améliore de manière significative les capacités de Sonnet 3.7, excellant dans le codage avec un taux de 72.7 % sur SWE-bench. Le modèle équilibre la performance et l'efficacité pour les cas d'utilisation internes et externes, avec une orientation améliorée pour un plus grand contrôle sur les implémentations. Bien qu'il n'égale pas Opus 4 dans la plupart des domaines, il offre un mélange optimal de capacités et de praticité.

GitHub affirme que Claude Sonnet 4 monte en flèche dans les scénarios agentiques et l'introduira comme modèle alimentant le nouvel agent de codage dans GitHub Copilot. Manus souligne ses améliorations en matière de suivi d'instructions complexes, de raisonnement clair et de résultats esthétiques. iGent rapporte que Sonnet 4 excelle dans le développement autonome d'applications multifonctionnelles, ainsi que dans la résolution de problèmes et la navigation dans la base de code, réduisant les erreurs de navigation de 20 % à près de zéro. Sourcegraph affirme que le modèle est prometteur en tant que saut substantiel dans le développement de logiciels - en restant sur la bonne voie plus longtemps, en comprenant les problèmes plus profondément et en fournissant une qualité de code plus élégante. Augment Code fait état de taux de réussite plus élevés, d'éditions de code plus chirurgicales et d'un travail plus minutieux dans le cadre de tâches complexes, ce qui en fait le premier choix pour leur modèle principal.

Ces modèles font progresser les stratégies d'IA des clients d'Anthropic dans tous les domaines : Opus 4 repousse les limites du codage, de la recherche, de l'écriture et de la découverte scientifique, tandis que Sonnet 4 apporte des performances de pointe aux cas d'utilisation quotidiens en tant que mise à niveau instantanée de Sonnet 3.7.

Améliorations du modèle

En plus de l'extension du raisonnement à l'utilisation d'outils, de l'exécution parallèle d'outils et de l'amélioration de la mémoire, Anthropic a considérablement réduit les comportements où les modèles utilisent des raccourcis ou des détours pour accomplir des tâches. Les deux modèles sont 65 % moins susceptibles d'adopter ce comportement que Sonnet 3.7 sur les tâches agentiques qui sont particulièrement sensibles aux raccourcis et aux échappatoires.

Claude Opus 4 surpasse également de manière significative tous les modèles précédents en ce qui concerne les capacités de mémoire. Lorsque les développeurs créent des applications qui permettent à Claude d'accéder à des fichiers locaux, Opus 4 devient capable de créer et de maintenir des « fichiers mémoire » pour stocker des informations clés. Cela permet d'améliorer la conscience des tâches à long terme, la cohérence et la performance des tâches de l'agent, comme Opus 4 qui crée un « guide de navigation » lorsqu'il joue à Pokémon.

Enfin, Anthropic a introduit des résumés de réflexion pour les modèles Claude 4 qui utilisent un modèle plus petit pour condenser les longs processus de réflexion. Ce résumé n'est nécessaire que dans environ 5 % des cas - la plupart des processus de raisonnement sont suffisamment courts pour être affichés dans leur intégralité. Anthropic recommande aux utilisateurs qui ont besoin de chaînes de pensée brutes pour une ingénierie avancée de contacter le service des ventes au sujet de son nouveau mode développeur afin de conserver un accès complet.

Claude Code

Claude Code, désormais disponible, apporte la puissance de Claude à un plus grand nombre d'utilisateurs dans leur flux de développement - dans le terminal, dans leurs EDI préférés, et en arrière-plan avec le SDK Claude Code.

Les nouvelles extensions bêta pour VS Code et JetBrains intègrent Claude Code directement dans l'EDI de l'utilisateur. Les modifications proposées par Claude apparaissent en ligne dans ses fichiers, ce qui simplifie la révision et le suivi dans l'interface familière de l'éditeur. Anthropic indique qu'il suffit de lancer Claude Code dans le terminal de l'EDI pour l'installer.

Au-delà de l'EDI, Anthropic a publié un SDK Claude Code extensible, afin que les utilisateurs puissent construire leurs propres agents et applications en utilisant le même agent de base que Claude Code. L'entreprise a également publié un exemple de ce qui est possible avec le SDK : Claude Code sur GitHub, maintenant en version bêta. Anthropic note qu'un utilisateur peut marquer Claude Code sur les PR pour répondre aux commentaires des évaluateurs, corriger les erreurs de CI ou modifier le code. Pour installer le SDK, l'utilisateur peut lancer /install-github-app à partir de Claude Code.

Selon Anthropic, les modèles Claude 4 représentent un grand pas vers le collaborateur virtuel, qui permet de maintenir un contexte complet, de se concentrer sur des projets plus longs et d'avoir un impact transformationnel. Ils s'accompagnent de tests et d'évaluations approfondis pour minimiser les risques et maximiser la sécurité, y compris la mise en œuvre de mesures pour des niveaux de sécurité IA plus élevés comme l'ASL-3.

Source : Anthropic

Et vous ?

Quel est votre avis sur le sujet ?

Trouvez-vous cette initiative d'Anthropic crédible ou pertinente ?

Voir aussi :

Anthropic prévoit que des employés virtuels alimentés par l'IA commenceront à opérer dans les entreprises l'année prochaine, créant de nouveaux risques comme les abus de compte et les comportements malhonnêtes

Anthropic a lancé un nouvel abonnement Max de 100 à 200 dollars par mois à Claude, qui offre des limites d'utilisation élargies pour son assistant d'IA, à la suite des demandes d'utilisateurs

Anthropic annonce Claude 3.7 Sonnet, un modèle qui donne un contrôle sur le temps que l'IA passe à "réfléchir" avant de générer une réponse, et Claude Code, un agent IA de codage en ligne de commande

Pourquoi les grands modèles de langage IA inventent-ils des informations ? Anthropic tente une approche, pour analyser le contexte dans lequel Claude « hallucine »

Vous avez lu gratuitement 4 196 articles depuis plus d'un an.
Soutenez le club developpez.com en souscrivant un abonnement pour que nous puissions continuer à vous proposer des publications.

Une erreur dans cette actualité ? Signalez-nous-la !

Votre nom : Votre e-mail :

Décrivez l'erreur que vous souhaitez porter à notre connaissance :

Identifiez-vous

Créer un compte

Anthropic lance les modèles Claude 4 qui peuvent travailler de manière autonome pendant presque toute une journée de travail en entreprise, établissant de nouvelles normes en matière de codage et d'agents IA

Identifiant
Mot de passe

Mot de passe oublié ?