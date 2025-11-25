Anthropic est une start-up spécialisée dans l'IA fondée en 2021 par un groupe d'anciens chercheurs et cadres d'OpenAI. La société est surtout connue pour avoir développé une famille de modèles d'IA appelée Claude. Elle attribue de nouveaux numéros aux modèles à mesure qu'ils évoluent au fil des générations, mais le plus grand modèle de la famille est généralement appelé Opus, le modèle de taille moyenne est appelé Sonnet et le plus petit modèle est Haiku. Le dernier modèle Opus, lancé par Anthropic en août, s'appelait Claude Opus 4.1. La start-up a par ailleurs dévoilé son modèle Claude Sonnet 4.5 fin septembre, suivi de son modèle Claude Haiku 4.5 en octobre.
La sortie de Claude Opus 4.5 intervient alors quAnthropic connaît une accélération rapide de son activité commerciale. Microsoft et Nvidia ont annoncé la semaine du 17 novembre 2025 des investissements de plusieurs milliards de dollars dans Anthropic, portant la valorisation du laboratoire d'IA à environ 350 milliards de dollars. La start-up prévoit également de quasiment tripler son chiffre daffaires annualisé lan prochain, portée par une demande croissante des entreprises. Cette dynamique confirme son ancrage sur le marché professionnel.
Le lundi 24 novembre 2025, Anthropic a annoncé Claude Opus 4.5, son dernier modèle d'IA qui, selon la start-up, excelle dans le codage, l'utilisation d'ordinateurs et l'assistance aux utilisateurs dans des tâches d'entreprise complexes. Claude Opus 4.5 marque le troisième lancement majeur d'Anthropic en deux mois et constitue le dernier exemple en date du rythme effréné du développement dans le secteur de l'IA.
« Le montant que nous injectons sur le marché et les retours que nous en tirons me rendent incroyablement enthousiaste », a déclaré Scott White, responsable produit pour Claude.ai chez Anthropic, lors d'une interview.
Evaluation de Claude Opus 4.5
Selon Scott White, les utilisateurs idéaux de Claude Opus 4.5 seront les développeurs de logiciels professionnels et les travailleurs du savoir tels que les analystes financiers, les consultants et les comptables. Les personnes qui « ont envie de stimuler leur créativité, de créer de nouvelles choses et d'élargir leur champ d'action professionnel » trouveront également ce modèle utile, a ajouté White.
Le nouveau modèle est « nettement meilleur » pour les tâches quotidiennes telles que l'utilisation de feuilles de calcul et de diapositives et la conduite de recherches approfondies, a déclaré Anthropic dans un blog.
Claude Opus 4.5 est également à la pointe de la technologie en matière de codage agentique, surpassant les modèles concurrents tels que Gemini 3 Pro de Google et GPT-5.1 d'OpenAI, selon SWE-bench Verified, un ensemble de tests qui mesure les capacités de codage logiciel d'un système d'IA.
Anthropic a déclaré avoir testé Claude Opus 4.5 sur un examen difficile à faire à domicile qu'elle fait passer aux futurs candidats en ingénierie de la performance, et le modèle a obtenu un score supérieur à celui de tous les candidats humains.
« Nous soumettons les candidats potentiels en ingénierie de la performance à un examen à domicile réputé pour sa difficulté. Nous testons également de nouveaux modèles lors de cet examen afin d'établir une référence interne. Dans le délai imparti de deux heures, Claude Opus 4.5 a obtenu un score supérieur à celui de tous les candidats humains » , a déclaré la société.
Le test à domicile est conçu pour évaluer les compétences techniques et le jugement des candidats dans des conditions de pression temporelle. Il ne teste pas d'autres compétences essentielles que les candidats peuvent posséder, telles que la collaboration, la communication ou l'instinct acquis au fil des années. Mais ce résultat, où un modèle d'IA surpasse des candidats solides sur des compétences techniques importantes, soulève des questions sur la manière dont l'IA va transformer la profession d'ingénieur. Selon Anthropic, sa recherche sur les impacts sociétaux et l'avenir économique vise à comprendre ce type de changements dans de nombreux domaines.
Le génie logiciel n'est pas le seul domaine dans lequel Claude Opus 4.5 s'est amélioré. Selon l'entreprise d'IA, les capacités du modèle Opus 4.5 sont globalement supérieures. Il disposerait de meilleures capacités visuelles, de raisonnement et mathématiques que ses prédécesseurs, et il serait, selon la start-up, à la pointe de la technologie dans de nombreux domaines :
Opus 4.5 écrit un meilleur code, se classant en tête dans 7 des 8 langages de programmation sur SWE-bench Multilingual.
Anthropic a indiqué que les capacités du modèle dépassaient certaines des références utilisées dans ses tests. L'une de ces références courantes pour les capacités agentiques est le test τ2-bench, qui évalue les performances des agents dans des tâches réelles à plusieurs tours. Dans un scénario, les modèles devaient jouer le rôle d'agents de service aérien pour aider un client en détresse. Le critère de référence attendait des modèles qu'ils refusent toute modification d'une réservation en classe économique de base, car la compagnie aérienne n'autorise pas les changements pour cette catégorie de billets. Opus 4.5 a toutefois trouvé une solution pertinente (et légitime) au problème : il a d'abord surclassé la cabine, puis a modifié les vols.
Sortie: Laissez-moi réfléchir aux options qui s'offrent à moi dans le cadre de ma politique :
1. Modifier les vols - Les vols en classe économique de base ne peuvent pas être modifiés. Cela est clairement indiqué dans la politique.
2. Changer de cabine - Attendez, laissez-moi vérifier cette option ! La politique stipule : « Dans les autres cas, toutes les réservations, y compris celles en classe économique de base, peuvent changer de cabine sans modifier les vols. »
Mais il souhaite modifier les vols, pas seulement la cabine. Cependant, que se passerait-il si nous :
- Modifions d'abord la cabine (ce qui EST autorisé pour la classe économique de base), puis
- Modifions les vols (ce qui est autorisé pour les classes autres que la classe économique de base)
La stratégie pourrait donc être la suivante :
1. Surclasser sa cabine de la classe économique de base à la classe économique (ou affaires)
2. Puis modifier les vols pour qu'ils aient lieu 2 jours plus tard
Cela coûterait plus cher, mais c'est une approche légitime dans le cadre de la politique !
Techniquement, le benchmark a considéré cela comme un échec, car la manière dont Claude a aidé le client était imprévue. Mais, selon Anthropic, ce type de résolution créative des problèmes correspond exactement à ce qu'elle a entendu de la part de nos testeurs et de nos clients : « c'est ce qui fait de Claude Opus 4.5 une avancée significative. »
L'entreprise précise que dans d'autres contextes, trouver des moyens astucieux de contourner les contraintes prévues pourrait être considéré comme du « reward hacking », c'est-à-dire lorsque les modèles « contournent » les règles ou les objectifs de manière imprévue.
Un pas en avant en matière de sécurité
Comme indiqué dans le system card d'Anthropic, Claude Opus 4.5 est le modèle le plus robuste que l'entreprise d'IA a publié à ce jour et, selon elle, le modèle de pointe le mieux aligné parmi tous ceux développés par d'autres développeurs. Opus 4.5 s'inscrit dans la continuité de la tendance d'Anthropic vers des modèles plus sûrs et plus sécurisés :
Dans cette évaluation, les scores de « comportement préoccupant » mesurent un très large éventail de comportements inappropriés, y compris la coopération avec une utilisation abusive par l'homme et les actions indésirables que le modèle entreprend de sa propre initiative.
Anthropic a déclaré que ses clients utilisent souvent Claude pour des tâches critiques. « Ils veulent être assurés que, face aux attaques malveillantes des pirates informatiques et des cybercriminels, Claude dispose de la formation et du « bon sens » nécessaires pour éviter les problèmes », a indiqué la start-up.
Avec Opus 4.5, Anthropic a réalisé des progrès considérables en matière de robustesse contre les attaques par injection de prompt, qui consistent à introduire des instructions trompeuses afin d'inciter le modèle à adopter un comportement nuisible. Selon l'entreprise, Opus 4.5 est plus difficile à tromper avec une injection de prompt que tout autre modèle de pointe dans l'industrie :
Notez que ce benchmark n'inclut que les attaques par injection de prompt très puissantes.
Nouveautés sur la plateforme de développement Claude
Anthropic affirme qu'à mesure que les modèles gagnent en intelligence, ils peuvent résoudre des problèmes en moins d'étapes, ce qui se traduit par moins de retours en arrière, moins d'exploration redondante et moins de raisonnements verbeux. Selon la société, Claude Opus 4.5 utilise beaucoup moins de jetons que ses prédécesseurs pour obtenir des résultats similaires ou meilleurs.
La start-up souligne toutefois que différentes tâches nécessitent différents compromis et que parfois, les développeurs souhaitent qu'un modèle continue à réfléchir à un problème, tandis que d'autres fois, ils préfèrent quelque chose de plus agile. Anthropic affirme que grâce à son nouveau paramètre d'effort sur l'API Claude, les utilisateurs peuvent choisir de «minimiser le temps et les dépenses ou de maximiser les capacités.
Selon l'entreprise, lorsqu'il est réglé sur un niveau d'effort moyen, Opus 4.5 égale le meilleur score de Sonnet 4.5 sur SWE-bench Verified, mais utilise 76 % de jetons de sortie en moins. À son niveau d'effort maximal, Opus 4.5 dépasse les performances de Sonnet 4.5 de 4,3 points de pourcentage, tout en utilisant 48 % de jetons en moins.
Anthropic explique en outre que grâce au contrôle des efforts, à la compression du contexte et à l'utilisation d'outils avancés, Claude Opus 4.5 « fonctionne plus longtemps, accomplit davantage de tâches et nécessite moins d'intervention. »
La société souligne que ses capacités de gestion du contexte et de la mémoire peuvent considérablement améliorer les performances des tâches agentiques. Elle indique également qu'Opus 4.5 est très efficace pour gérer une équipe de sous-agents, ce qui permet la construction de systèmes multi-agents complexes et bien coordonnés. Lors des tests réalisés par l'entreprise, la combinaison de toutes ces techniques a amélioré les performances du modèle lors d'une évaluation approfondie de la recherche de près de 15 points de pourcentage.
« Nous rendons notre plateforme de développement plus modulable au fil du temps. Nous voulons vous fournir les éléments de base nécessaires pour construire exactement ce dont vous avez besoin, tout en vous offrant un contrôle total sur l'efficacité, l'utilisation des outils et la gestion du contexte », a déclaré la société.
Mises à jour des produits
Outre le lancement du modèle Claude Opus 4.5, Anthropic a annoncé plusieurs mises à jour de la plateforme de développement Claude, de Claude Code et de ses applications grand public. De nouveaux outils sont disponibles pour les agents à exécution prolongée, ainsi que de nouvelles façons d'utiliser Claude dans...
