La fin de cet article est réservée aux abonnés. Soutenez le Club Developpez.com en prenant un abonnement pour que nous puissions continuer à vous proposer des publications.

Anthropic PBC est une entreprise américaine spécialisée dans l'IA dont le siège social est situé à San Francisco. Elle a été fondée en 2021 par un groupe d'anciens chercheurs et cadres d'OpenAI et est surtout connue pour avoir développé une famille de modèles d'IA baptisée Claude. L'entreprise mène des recherches et développe des IA afin d'« étudier leurs propriétés de sécurité à la pointe de la technologie » et utilise ces recherches pour déployer des modèles sûrs destinés au grand public.Claude est une série de grands modèles de langage (LLM) développés par Anthropic, dont le premier modèle à été lancé en mars 2023. La société attribue de nouveaux numéros aux modèles à mesure qu'ils évoluent d'une génération à l'autre, mais le plus grand modèle de la famille est généralement appelé Opus, le modèle de taille moyenne est appelé Sonnet et le plus petit modèle est Haiku. Claude peut analyser des images et différents types de fichiers, ainsi que faire des recherches sur Internet. Il est particulièrement connu pour ses performances en codage informatique.Le jeudi 5 février 2026, Anthropic a annoncé le lancement de Claude Opus 4.6, son dernier modèle d'IA qui est plus performant en matière de codage, capable de maintenir des tâches plus longtemps et de créer des produits et des résultats professionnels de meilleure qualité. Et, pour la première fois dans les modèles de classe Opus, Opus 4.6 dispose désormais d'une fenêtre contextuelle de 1 million de tokens en version bêta.« Le nouveau Claude Opus 4.6 améliore les compétences de codage de son prédécesseur. Il planifie plus soigneusement, soutient les tâches agentiques plus longtemps, peut fonctionner de manière plus fiable dans des bases de code plus importantes et dispose de meilleures compétences en matière de révision et de débogage du code pour détecter ses propres erreurs », a déclaré Anthropic sur son site.« Opus 4.6 peut également mettre ses capacités améliorées au service d'une série de tâches quotidiennes : réaliser des analyses financières, effectuer des recherches, utiliser et créer des documents, des feuilles de calcul et des présentations. Au sein de Cowork, où Claude peut effectuer plusieurs tâches de manière autonome, Opus 4.6 peut mettre toutes ces compétences à votre service », ajouté l'entreprise.Les performances de Claude Opus 4.6 sont à la pointe de la technologie dans plusieurs évaluations. Selon les évaluations réalisées par Anthropic, Claude Opus 4.6 se place en tête dans son secteur en matière de codage agentique, d'utilisation d'ordinateurs, d'utilisation d'outils, de recherche et de finance, souvent avec une large avance. Par exemple, il obtient le score le plus élevé dans l'évaluation du codage agentique Terminal-Bench 2.0 et devance tous les autres modèles de pointe dans le Humanity's Last Exam, un test de raisonnement multidisciplinaire complexe.Sur GDPval-AA, une évaluation des performances dans des tâches intellectuelles à forte valeur économique dans les domaines de la finance, du droit et autres, Opus 4.6 surpasse le deuxième meilleur modèle du secteur (GPT-5.2 d'OpenAI) d'environ 144 points Elo2, et son propre prédécesseur (Claude Opus 4.5) de 190 points. Opus 4.6 est également plus performant que tout autre modèle sur BrowseComp, qui mesure la capacité d'un modèle à localiser des informations difficiles à trouver en ligne. En outre, Claude Opus 4.6 occupe désormais la première place du classement Finance Agent, qui évalue les performances des agents dans les tâches essentielles d'un analyste financier.Le tableau ci-dessous montre comment Claude Opus 4.6 se compare aux modèles précédents d'Anthropic et à d'autres modèles du secteur sur une variété de critères de référence.Opus 4.6 serait beaucoup plus performant pour extraire des informations pertinentes à partir de grands ensembles de documents. Cela s'étend aux tâches à contexte long, où le modèle conserve et suit les informations sur des centaines de milliers de tokens avec moins de dérive, et détecte des détails cachés que même Opus 4.5, le modèle précédent d'Anthropic, ne pourrait pas trouver.Une critique courante à l'égard des modèles d'IA est la « dégradation du contexte », qui se traduit par une baisse des performances lorsque les conversations dépassent un certain nombre de tokens. Selon Anthropic, Opus 4.6 offre des performances nettement supérieures à celles de ses prédécesseurs : sur la variante 8-needle 1M du MRCR v2, un benchmark de type « aiguille dans une botte de foin » qui teste la capacité d'un modèle à récupérer des informations « cachées » dans de vastes quantités de texte, Opus 4.6 a obtenu un score de 76 %, tandis que Sonnet 4.5 n'obtient que 18,5 %. « Il s'agit d'un changement qualitatif dans la quantité de contexte qu'un modèle peut réellement utiliser tout en conservant des performances optimales », a déclaré la société.Dans l'ensemble, Opus 4.6 serait donc plus performant pour trouver des informations dans des contextes longs, mieux à même de raisonner après avoir absorbé ces informations, et dispose de « capacités de raisonnement de niveau expert nettement supérieures en général ».Enfin, les graphiques ci-dessous montrent les performances de Claude Opus 4.6 sur deux benchmarks qui évaluent ses compétences en génie logiciel et ses capacités en matière de cybersécurité.Lors de l'audit comportemental automatisé réalisé par Anthropic, Opus 4.6 a affiché un faible taux de comportements inappropriés tels que la tromperie, la flagornerie, l'encouragement des illusions des utilisateurs et la coopération à des utilisations abusives. Dans l'ensemble, le modèle est tout aussi bien aligné que son prédécesseur, Claude Opus 4.5, qui était le modèle pionnier le plus aligné de l'entreprise à ce jour. Opus 4.6 affiche également le taux le plus faible de refus excessifs (lorsque le modèle ne répond pas à des requêtes bénignes) de tous les modèles Claude récents.« Pour Claude Opus 4.6, nous avons réalisé l'ensemble d'évaluations de sécurité le plus complet jamais réalisé pour un modèle, en appliquant pour la première fois de nombreux tests différents et en améliorant plusieurs tests que nous avions déjà utilisés auparavant », a déclaré Anthropic sur son site.Lors de l'audit, Anthropic a inclus de nouvelles évaluations du bien-être des utilisateurs, des tests plus complexes de la capacité du modèle à refuser des demandes potentiellement dangereuses et des évaluations actualisées de la capacité du modèle à effectuer subrepticement des actions nuisibles. Elle a également expérimenté de nouvelles méthodes issues de l'interprétabilité, la science du fonctionnement interne des modèles d'IA. Selon l'entreprise, cette approche a été réalisée afin de « commencer à comprendre pourquoi le modèle se comporte d'une certaine manière et, en fin de compte, de détecter les problèmes que les tests standard pourraient ne pas détecter. »Anthropic a également mis en place de nouvelles mesures de sécurité dans les domaines où Opus 4.6 présente des atouts particuliers qui pourraient être utilisés à des fins dangereuses ou bénéfiques. En particulier, l'entreprise a développé six nouveaux tests de cybersécurité (méthodes de détection des réponses nuisibles) afin de l'aider à suivre différentes formes d'utilisation abusive potentielle.L'entreprise a également indiqué qu'elle accélérait les utilisations cyberdéfensives du modèle, en l'utilisant pour aider à trouver et à corriger les vulnérabilités des logiciels open source.« Nous pensons qu'il est essentiel que les cyberdéfenseurs utilisent des modèles d'IA tels que Claude pour aider à uniformiser les règles du jeu. La cybersécurité évolue rapidement, et nous ajusterons et mettrons à jour nos mesures de protection à mesure que nous en apprendrons davantage sur les menaces potentielles. Dans un avenir proche, nous pourrions mettre en place une intervention en temps réel pour bloquer les abus », a déclaré Anthropic.Claude Opus 4.6 est le premier modèle majeur lancé par Anthropic cette année, mais il arrive quelques mois seulement après la sortie de trois autres modèles  Claude Opus 4.5, Claude Sonnet 4.5 et Claude Haiku 4.5  à la fin de l'année dernière. Les modèles d'Anthropic sont particulièrement populaires auprès des entreprises, qui représentent environ 80 % de l'activité d'Anthropic, a déclaré le PDG Dario Amodei le mois dernier.L'outil de codage IA de l'entreprise, Claude Code, ainsi que les avancées de son outil de productivité, Claude Cowork, ont également...