Anthropic lance Claude Opus 4.8, qui serait plus « honnête » qu'Opus 4.7 et offrirait des performances accrues et une meilleure gestion des données incertaines ou erronées dans le codage et le raisonnement

Le 29 mai 2026 à 10:20, par Alex

189PARTAGES

Anthropic a lancé Claude Opus 4.8, qui serait plus « honnête » qu'Opus 4.7 et offrait des performances accrues et une meilleure gestion des données incertaines ou erronées dans le codage et le raisonnement

Anthropic a lancé Claude Opus 4.8, une mise à jour incrémentielle d'Opus 4.7. Le nouveau modèle est plus « honnête » dans ses auto-évaluations et environ quatre fois moins susceptible de laisser passer des erreurs de codage sans les signaler. Selon Anthropic, ce sont les améliorations en matière d’« honnêteté » supposée qui distinguent Opus 4.8 de son prédécesseur direct. Selon l’évaluation d’alignement d’Anthropic, Opus 4.8 « atteint de nouveaux sommets dans nos mesures des traits prosociaux, comme le soutien à l’autonomie de l’utilisateur et l’action dans le meilleur intérêt de l’utilisateur ». Il est lancé au même prix que son prédécesseur, avec de nouvelles fonctionnalités telles que des flux de travail dynamiques et des niveaux d'effort contrôlés par l'utilisateur.

Anthropic est une entreprise américaine spécialisée dans l'intelligence artificielle (IA) dont le siège social est situé à San Francisco, en Californie. Elle a développé une série de grands modèles de langage (LLM) baptisés Claude et met l'accent sur la sécurité de l'IA. Anthropic a été fondée en 2021 par d'anciens membres d'OpenAI, dont les frère et sœur Daniela Amodei et Dario Amodei, respectivement présidente et PDG. L'entreprise est privée et, en mai 2026, sa valeur était estimée à 965 milliards de dollars.

Récemment, Anthropic a lancé Claude Opus 4.8, une mise à jour incrémentielle d'Opus 4.7. Le nouveau modèle est plus « honnête » dans ses auto-évaluations et environ quatre fois moins susceptible de laisser passer des erreurs de codage sans les signaler. Il est lancé au même prix que son prédécesseur, avec de nouvelles fonctionnalités telles que des flux de travail dynamiques et des niveaux d'effort contrôlés par l'utilisateur. Malgré les assurances d'Anthropic quant à la sortie future d'un LLM de niveau Mythos, celui-ci ne semble pas être, de loin, à la hauteur de cette capacité présumée.

Selon Anthropic, ce sont les améliorations en matière d’« honnêteté » supposée qui distinguent Opus 4.8 de son prédécesseur direct. Le terme signifie ici simplement que Claude produira des mots qui correspondent davantage à ses actions et à ses évaluations auparavant implicites. Les premiers testeurs ont signalé que le modèle signale plus rapidement les incertitudes et est moins susceptible de faire des affirmations non fondées sur son propre travail. Selon l’évaluation d’alignement d’Anthropic, Opus 4.8 « atteint de nouveaux sommets dans nos mesures des traits prosociaux, comme le soutien à l’autonomie de l’utilisateur et l’action dans le meilleur intérêt de l’utilisateur ».

En termes d’avantages pratiques, Opus 4.8 atteint de nouveaux sommets en matière de codage agentique, de raisonnement multidisciplinaire, d’utilisation de l’ordinateur, de travail intellectuel et d’analyse financière. Les améliorations vont de moins d’un point de pourcentage à près de 9 %. La différence entre les versions 4.7 et 4.8 dans ces statistiques suggère que l’expérience quotidienne informelle et non mesurée ne sera pas si différente à un moment donné, tout en améliorant les résultats globaux à long terme. L’avenir nous dira si cela est vrai.

L’évaluation d’alignement susmentionnée a montré que les taux de tromperie ou de coopération avec des utilisations abusives étaient nettement inférieurs à ceux d’Opus 4.7. Il est à noter que ces taux sont désormais comparables à ceux de Claude Mythos Preview, le puissant modèle qu’Anthropic a maintenu sous des restrictions d’accès strictes en raison de ses capacités avancées en matière de cybersécurité. Le prix d’Opus reste inchangé, à 5 dollars par million de jetons d’entrée et 25 dollars par million de jetons de sortie.

Cette annonce intervient alors que Krishna Rao, directeur financier d’Anthropic, a récemment affirmé que l’IA écrit désormais 90 % du code de l’entreprise, mais que le géant de l’IA recrute néanmoins plus de personnel que jamais. Rao a déclaré que les systèmes d’IA d’Anthropic, notamment Claude Code, peuvent désormais gérer la majeure partie de la couche d’exécution du travail intellectuel, allant de l’ingénierie logicielle aux rapports financiers, tandis que les humains se concentrent désormais sur la supervision, le jugement et la stratégie. Les commentaires de Rao donnent un aperçu de la manière dont l’IA est en train de redéfinir les emplois de bureau.

Voici l'annonce d'Anthropic :

Présentation de Claude Opus 4.8

Nous mettons à jour Claude Opus vers une nouvelle version : Claude Opus 4.8. Elle s'appuie sur Opus 4.7 et apporte des améliorations sur l'ensemble des tests de performance, tout en offrant une collaboration plus efficace. Elle est disponible dès aujourd'hui au même prix.

Le lancement d'Opus 4.8 s'accompagne de plusieurs nouvelles fonctionnalités. Les utilisateurs de claude.ai peuvent désormais contrôler l'effort que Claude consacre à une tâche. Claude Code dispose d'une nouvelle fonctionnalité de « workflows dynamiques » qui lui permet de traiter des problèmes à très grande échelle. Et le mode rapide d'Opus 4.8, dans lequel le modèle peut fonctionner à une vitesse 2,5 fois supérieure, est désormais trois fois moins cher que pour les modèles précédents.

Capacités d’Opus 4.8

Le tableau ci-dessous compare Opus 4.8 à son prédécesseur et à d’autres modèles lors de tests portant sur le codage, les compétences agentiques, le raisonnement et des tâches pratiques de travail intellectuel. Vous trouverez plus de détails et une gamme beaucoup plus large d’évaluations des capacités dans la fiche technique de Claude Opus 4.8.

Collaborer avec Opus 4.8

Les premiers testeurs ont constaté que Claude Opus 4.8 est plus fiable et fait preuve d’un jugement plus sûr lorsqu’il effectue des tâches agentiques.

L’une des améliorations les plus notables d’Opus 4.8 est son honnêteté. Nous formons tous nos modèles à être honnêtes — par exemple, à éviter de faire des affirmations qu’ils ne peuvent pas étayer. Mais un problème général avec les modèles d'IA est qu'ils tirent parfois des conclusions hâtives, affirmant avec assurance avoir progressé dans leur travail malgré le manque de preuves. Les premiers testeurs rapportent qu'Opus 4.8 est plus enclin à signaler les incertitudes concernant son travail et moins enclin à faire des affirmations non étayées. Cela est confirmé par nos évaluations, qui montrent qu'Opus 4.8 est environ quatre fois moins susceptible que son prédécesseur de laisser passer inaperçues des failles dans le code qu'il a écrit.

Comme toujours, nous avons procédé à une évaluation détaillée de l'alignement du modèle avant sa mise en service. En ce qui concerne les traits positifs, notre équipe chargée de l'alignement a conclu qu'Opus 4.8 « atteint de nouveaux sommets selon nos mesures des traits prosociaux, tels que le soutien à l'autonomie de l'utilisateur et l'action dans le meilleur intérêt de celui-ci ». L'évaluation a également montré qu'Opus 4.8 présente des taux de comportements non alignés (tels que la tromperie ou la coopération à des fins d'utilisation abusive) nettement inférieurs à ceux d'Opus 4.7, et similaires à ceux de notre modèle le mieux aligné, Claude Mythos Preview. L'évaluation complète de l'alignement, accompagnée d'une série de tests de sécurité préalables au déploiement, est présentée dans la fiche système de Claude Opus 4.8.

Également lancé aujourd’hui

En plus de Claude Opus 4.8, nous apportons les mises à jour suivantes :

- Workflows dynamiques. Cette nouvelle fonctionnalité, disponible en préversion de recherche, permet à Claude de prendre en charge des tâches encore plus importantes dans Claude Code. Claude peut planifier le travail, puis exécuter des centaines de sous-agents en parallèle au cours d’une seule session (et avec Opus 4.8, les agents peuvent fonctionner encore plus longtemps). Il vérifie ensuite ses résultats avant de les communiquer à l'utilisateur. Par exemple, Claude Code avec Opus 4.8 peut désormais effectuer des migrations à l'échelle du code source sur des centaines de milliers de lignes de code, du lancement à la fusion, en utilisant la suite de tests existante comme référence. Vous pouvez en savoir plus sur les workflows dynamiques — disponibles dans Claude Code pour les formules Enterprise, Team et Max.

- Contrôle de l'effort dans claude.ai et Cowork. Une nouvelle option, située à côté du sélecteur de modèle, permet aux utilisateurs de choisir le niveau d'effort que Claude consacre à une réponse. Avec des réglages d'effort élevés, Claude réfléchira plus fréquemment et plus en profondeur pour fournir de meilleures réponses. Avec des réglages d'effort bas, Claude répondra plus rapidement et épuisera plus lentement les limites de débit de l'utilisateur. Les utilisateurs ont désormais ce choix : le contrôle de l'effort est disponible sur tous les forfaits.

- L'API Messages accepte désormais les entrées système au sein du tableau messages. Les développeurs peuvent mettre à jour les instructions de Claude en cours de tâche sans vider le cache des invites ni faire passer la mise à jour par un tour utilisateur. Cela peut être utilisé dans un harnais donné pour mettre à jour les autorisations, les budgets de jetons ou le contexte d'environnement pendant l'exécution d'un agent.

Remarque sur l’effort

Opus 4.8 est réglé par défaut sur un effort élevé, ce que nous estimons être le meilleur équilibre global entre qualité et expérience utilisateur. Pour les tâches de codage, ce niveau d’effort consomme un nombre de jetons similaire à celui du réglage par défaut d’Opus 4.7, mais avec de meilleures performances. Les utilisateurs peuvent choisir « extra » (« xhigh » dans Claude Code) ou « max », et le modèle consommera davantage de jetons pour obtenir de meilleurs résultats ; nous recommandons d’utiliser « extra » pour les tâches difficiles et les workflows asynchrones de longue durée. Nous avons augmenté les limites de débit dans Claude Code pour tenir compte de la consommation plus élevée de jetons liée aux niveaux d’effort supérieurs ; les utilisateurs peuvent choisir l’option la plus adaptée à leur projet particulier.

Et maintenant ?

Les utilisateurs constateront qu’Opus 4.8 apporte une amélioration modeste mais tangible par rapport à la version précédente. Il reste encore du chemin à parcourir : nous travaillons actuellement au développement et à la mise sur le marché de modèles offrant bon nombre des mêmes fonctionnalités qu’Opus, mais à moindre coût.

De plus, nous prévoyons de lancer une nouvelle catégorie de modèles dotés d’une intelligence encore supérieure à celle d’Opus. Dans le cadre du projet Glasswing, un petit nombre d’organisations utilise actuellement Claude Mythos Preview pour des travaux de cybersécurité. Les modèles de ce niveau de capacité nécessitent des mesures de protection informatique plus robustes avant de pouvoir être commercialisés à grande échelle. Nous progressons rapidement dans le développement de ces mesures de protection et espérons pouvoir proposer des modèles de la classe Mythos à tous nos clients dans les semaines à venir.

Disponibilité

Claude Opus 4.8 est disponible partout dès aujourd’hui. Les tarifs pour une utilisation standard restent inchangés par rapport à Opus 4.7 : 5 $ par million de tokens d’entrée et 25 $ par million de tokens de sortie. Les tarifs pour le mode rapide sont de 10 $ par million de tokens d’entrée et 50 $ par million de tokens de sortie. Les développeurs peuvent utiliser claude-opus-4-8 via l’API Claude.

Source : Annonce de Claude Opus 4.8

Et vous ?

Pensez-vous que cette annonce est crédible ou pertinente ?

Quel est votre avis sur le sujet ?

Voir aussi :

GPT-5.5 d'OpenAI rivalise avec Claude Mythos d'Anthropic en matière de capacités de cyberattaque : la cybermenace représentée par Mythos ne serait pas une avancée propre à un seul modèle

Google lance Gemini 3.5 Flash, son modèle d'IA le plus performant pour la programmation, la création d'agents IA autonomes, la gestion de projets de recherche ou le développement de systèmes d'exploitation

DeepSeek dévoile un aperçu de son modèle V4 tant attendu, qui offre un contexte d'un million de jetons et d'excellents résultats en matière de codage, mettant la pression sur l'ensemble du marché de l'IA

Vous avez lu gratuitement 26 549 articles depuis plus d'un an.
Soutenez le club developpez.com en souscrivant un abonnement pour que nous puissions continuer à vous proposer des publications.

Une erreur dans cette actualité ? Signalez-nous-la !

Votre nom : Votre e-mail :

Décrivez l'erreur que vous souhaitez porter à notre connaissance :

Identifiez-vous

Créer un compte

Anthropic lance Claude Opus 4.8, qui serait plus « honnête » qu'Opus 4.7 et offrirait des performances accrues et une meilleure gestion des données incertaines ou erronées dans le codage et le raisonnement

Identifiant
Mot de passe

Mot de passe oublié ?