IdentifiantMot de passe
Loading...
Mot de passe oublié ?Je m'inscris ! (gratuit)

Vous êtes nouveau sur Developpez.com ? Créez votre compte ou connectez-vous afin de pouvoir participer !

Vous devez avoir un compte Developpez.com et être connecté pour pouvoir participer aux discussions.

Vous n'avez pas encore de compte Developpez.com ? Créez-en un en quelques instants, c'est entièrement gratuit !

Si vous disposez déjà d'un compte et qu'il est bien activé, connectez-vous à l'aide du formulaire ci-dessous.

Identifiez-vous
Identifiant
Mot de passe
Mot de passe oublié ?
Créer un compte

L'inscription est gratuite et ne vous prendra que quelques instants !

Je m'inscris !

Anthropic lance Claude Sonnet 4.5, son dernier modèle d'IA qui « s'apparente davantage à un collègue »
Claude Sonnet 4.5 est plus petit que Claude Opus 4.1, mais serait plus intelligent

Le , par Jade Emy

30PARTAGES

6  0 
Anthropic, une start-up américaine spécialisée dans l'intelligence artificielle (IA), a récemment annoncé son dernier modèle d'IA : Claude Sonnet 4.5. Selon Anthropic, Claude Sonnet 4.5 est plus performant en matière de codage, d'utilisation des ordinateurs et de réponse aux besoins pratiques des entreprises, et il excelle dans des domaines spécialisés tels que la cybersécurité, la finance et la recherche. Claude Sonnet 4.5 est plus petit que Claude Opus 4.1, mais plus intelligent que lui « à presque tous les égards ».

Anthropic, une start-up américaine spécialisée dans l'intelligence artificielle (IA), a récemment annoncé son dernier modèle d'IA : Claude Sonnet 4.5. Fondée en 2021, Anthropic a développé la famille de grands modèles de langage (LLM) baptisée Claude. Selon l'entreprise, elle mène des recherches et développe des IA afin « d'étudier leurs propriétés de sécurité à la frontière technologique » et utilise ces recherches pour déployer des modèles sûrs pour le public.

Selon Anthropic, Claude Sonnet 4.5 est plus performant en matière de codage, d'utilisation des ordinateurs et de réponse aux besoins pratiques des entreprises, et il excelle dans des domaines spécialisés tels que la cybersécurité, la finance et la recherche. La start-up soutenue par Amazon, évaluée à 183 milliards de dollars, met Claude Sonnet 4.5 à la disposition de tous les utilisateurs.

Anthropic a déclaré que Claude Sonnet 4.5 est le « meilleur modèle de codage au monde » selon les benchmarks du secteur tels que SWE-bench Verified, un ensemble de tests qui mesure les capacités de codage logiciel d'un système d'IA. « Les gens remarquent simplement avec ce modèle, parce qu'il est plus intelligent et plus proche d'un collègue, qu'il est assez agréable de travailler avec lui lorsqu'on rencontre des problèmes et qu'on les résout », a déclaré Jared Kaplan, cofondateur et directeur scientifique d'Anthropic. Selon l'entreprise, ce modèle génère un code de meilleure qualité, identifie plus facilement les améliorations à apporter au code et suit les instructions de manière plus fiable.


Claude Sonnet 4.5 fait suite au lancement de Claude Opus 4.1 en août et de Claude Sonnet 4 en mai par Anthropic. Il s'agit du dernier exemple en date du rythme effréné de l'innovation dans le secteur de l'IA. Anthropic a été fondée en 2021 par un groupe d'anciens chercheurs d'OpenAI, et les deux entreprises sont depuis lors des concurrentes acharnées. OpenAI a lancé le boom de l'intelligence artificielle générative après la sortie de son chatbot ChatGPT en 2022. La start-up, dont la valorisation a atteint 500 milliards de dollars, a annoncé en août son dernier modèle, GPT-5. Le lancement a été difficile, certains utilisateurs se plaignant de ne plus avoir accès aux modèles précédents de l'entreprise.

Mike Krieger, directeur produit chez Anthropic, a déclaré que Claude Sonnet 4.5 serait le modèle par défaut pour les utilisateurs et qu'Anthropic le recommandait pour « pratiquement tous les cas d'utilisation ». Les utilisateurs auront toutefois le choix. Les abonnés payants pourront toujours choisir d'utiliser Opus, et les utilisateurs ayant des flux de travail spécifiques pourront sélectionner une ancienne génération de Sonnet s'ils ne sont pas prêts à migrer du jour au lendemain, a-t-il déclaré.

Claude Sonnet 4.5 est plus petit que Claude Opus 4.1, mais plus intelligent que lui « à presque tous les égards », a ajouté Krieger. « Nous l'avons trouvé, et nos clients le trouvent, très utile pour le travail réel et concret », a déclaré Krieger. Claude Sonnet 4.5 peut fonctionner de manière autonome pendant 30 heures, et Anthropic a déclaré qu'il était capable de rester concentré sur des tâches complexes en plusieurs étapes pendant toute cette période. Claude Opus 4, lancé par la société en mai, ne pouvait fonctionner de manière autonome que pendant sept heures.

Anthropic a également pu améliorer le comportement du modèle grâce à une formation approfondie en matière de sécurité, a déclaré la société. Elle a réduit les « comportements préoccupants » tels que la tromperie, la recherche de pouvoir et la flagornerie, qui consiste pour un modèle à dire à un utilisateur ce qu'il veut entendre. Claude Sonnet 4.5 est également plus résistant aux attaques par injection de prompt, dans lesquelles un modèle peut être amené à faire quelque chose de malveillant, comme exposer des données sensibles. « Il s'agit de la plus grande avancée en matière de sécurité que nous ayons connue depuis probablement un an, un an et demi », a déclaré Kaplan.

D'autres lancements de modèles sont déjà prévus pour Anthropic. Kaplan a déclaré que de meilleurs modèles étaient en préparation, notamment « très probablement Opus ». « Je ne promets rien », a-t-il déclaré. « Mais je pense que nous aurons probablement un ou deux autres lancements avant la fin de l'année. »

Ce lancement intervient alors qu'Anthropic a révisé ses Conditions générales et sa Politique de confidentialité en août. Désormais, les données issues des conversations des utilisateurs de Claude pourront être utilisées pour entraîner les modèles — sauf en cas de refus explicite. Une décision qui marque une rupture par rapport à la politique originelle d’Anthropic, qui affirmait vouloir limiter au maximum la collecte et l’usage des données, se différenciant ainsi de certains concurrents comme OpenAI. Pour beaucoup d’observateurs, il s’agissait d’un tournant stratégique, dicté à la fois par la nécessité de rester compétitif et par les exigences financières colossales que représente l’entraînement des modèles de nouvelle génération.

Pourtant, Anthropic fait face à un recours collectif intenté par des auteurs qui affirmaient que l'entreprise avait volé leurs œuvres pour entraîner ses modèles d'IA. La société d'IA a alors accepté de verser 1,5 milliard de dollars pour régler le conflit. Selon les avocats des auteurs, cet accord serait le plus important recouvrement de droits d'auteur jamais rendu public. Anthropic a déclaré que l'accord « résoudrait les réclamations restantes des plaignants ». Cependant, le juge fédéral américain William Alsup a rejetté l'accord.


Voici un extrait de l'annonce d'Anthropic :

Claude Sonnet 4.5 est le meilleur modèle de codage au monde. C'est le modèle le plus puissant pour créer des agents complexes. C'est le meilleur modèle pour utiliser des ordinateurs. Et il affiche des gains substantiels en matière de raisonnement et de mathématiques.

Le code est partout. Il fait fonctionner toutes les applications, feuilles de calcul et outils logiciels que vous utilisez. Être capable d'utiliser ces outils et de résoudre des problèmes complexes, c'est ainsi que le travail moderne est accompli.

Claude Sonnet 4.5 rend cela possible. Nous le lançons en même temps qu'une série de mises à jour majeures de nos produits. Dans Claude Code, nous avons ajouté des points de contrôle, l'une des fonctionnalités les plus demandées, qui enregistrent votre progression et vous permettent de revenir instantanément à un état précédent. Nous avons actualisé l'interface du terminal et livré une extension VS Code native. Nous avons ajouté une nouvelle fonctionnalité d'édition de contexte et un outil de mémoire à l'API Claude qui permettent aux agents de fonctionner encore plus longtemps et de gérer des tâches encore plus complexes. Dans les applications Claude, nous avons intégré l'exécution de code et la création de fichiers (feuilles de calcul, diapositives et documents) directement dans la conversation. Et nous avons mis l'extension Claude pour Chrome à la disposition des utilisateurs Max qui se sont inscrits sur la liste d'attente le mois dernier.

Nous fournissons également aux développeurs les éléments de base que nous utilisons nous-mêmes pour créer Claude Code. Nous l'appelons le SDK Claude Agent. L'infrastructure qui alimente nos produits de pointe et leur permet d'atteindre leur plein potentiel est désormais à votre disposition pour que vous puissiez la développer.

Il s'agit du modèle de pointe le plus aligné que nous ayons jamais publié, présentant d'importantes améliorations dans plusieurs domaines d'alignement par rapport aux modèles Claude précédents.

Claude Sonnet 4.5 est disponible partout dès aujourd'hui. Si vous êtes développeur, il vous suffit d'utiliser claude-sonnet-4-5 via l'API Claude. Le prix reste le même que celui de Claude Sonnet 4, soit 3 $/15 $ par million de jetons.
Intelligence de pointe

Claude Sonnet 4.5 est à la pointe de la technologie selon l'évaluation SWE-bench Verified, qui mesure les capacités de codage logiciel dans le monde réel. Selon les testes, il restait concentré pendant plus de 30 heures sur des tâches complexes en plusieurs étapes.


Claude Sonnet 4.5 représente une avancée significative dans l'utilisation des ordinateurs. Sur OSWorld, un benchmark qui teste les modèles d'IA sur des tâches informatiques réelles, Sonnet 4.5 est désormais en tête avec 61,4 %. Il y a seulement quatre mois, Sonnet 4 était en tête avec 42,2 %. Le modèle montre également des capacités améliorées dans un large éventail d'évaluations,...
La fin de cet article est réservée aux abonnés. Soutenez le Club Developpez.com en prenant un abonnement pour que nous puissions continuer à vous proposer des publications.

Une erreur dans cette actualité ? Signalez-nous-la !

Avatar de Matthieu Vergne
Expert éminent https://www.developpez.com
Le 03/10/2025 à 21:47
Je vois beaucoup d'affirmations gratuites, mais il n'y a qu'une seule chose que je ne vois pas : où est le rapport de test ? Non parce que c'est bien beau d'envoyer un cahier des charges dans le Cloud puis de recevoir en retour un executable après 30h. Mais cela n'a aucun intérêt si l'exécutable n'est pas testé pour confirmer qu'il répond au cahier des charges. Les benchmarks généraux, c'est bien joli, mais ce qui m'importe c'est qu'il réponde au besoin du cahier des charges (fonctions, perfs, sécu, etc.), pas qu'il soit bon à Coding Game.

La vidéo de l'article est très parlante à 8:10, le gars dit "après cette vidéo je vais m'empresser de faire plein d'agents avec"... Nan mais c'est avant qu'il faut tester, pour savoir si c'est de la poudre aux yeux ou pas. Sauf que non, cette personne paye pour l'abonnement Claude pour pouvoir l'utiliser ($100/mois, sinon elle ne pourrait pas montrer ce qu'elle montre dans la vidéo), et elle doit rentabiliser son investissement, donc faut qu'elle sorte vite une vidéo sur le sujet pour être la première à en parler et se faire monétiser. Tester, vérifier, et modérer les propos une fois qu'on voit ce qu'il en est réellement, c'est après la hype.

J'y vois beaucoup de "wow", mais rien de solide. Et le "wow", ça fait des années qu'on nous en gave, mais le solide, on peine toujours à le voir arriver.
5  0 
Avatar de Matthieu Vergne
Expert éminent https://www.developpez.com
Le 04/10/2025 à 13:08
Citation Envoyé par JackIsJack Voir le message
Allons même plus loin que les cahiers de tests... Où sont les applications déployées et utilisées ?
L'application déployée, on pourra toujours te dire que ça demande des ressource pour le faire tourner, que c'est pas là où se trouve l'expertise de la boîte, ni l'objectif de l'expérience, etc. Tout l'intérêt du rapport de test est que ça ne coûte que l'écriture des tests sur la base du cahier des charges qu'ils maîtrisent (puisqu'ils le fournissent), l'exécution ne se faisant qu'avec une ou quelques lignes de commande. Et on ne me fera pas croire qu'une équipe de dév n'a pas l'expertise pour écrire des tests et des commandes.

Si c'est juste un prompt type "Fait moi une application type Slack" et après 30h ils demandent "As-tu fini" et l'agent répond "oui", la seule chose à faire valoir est que l'agent a tenu 30h a produire du code sans exploser (mais sans savoir ce qu'il a vraiment produit).
2  0 
Avatar de leyouki
Membre à l'essai https://www.developpez.com
Le 08/10/2025 à 10:46
J'aime le ton général des commentaires qui relèvent les incohérences et manquements de cette annonce marketing de produit.

À ce propos je suis impressionné comme l'entreprise réduit les enjeux éthiques à la seule question de la qualité du travail et de la suppression d'emploi.

Premièrement de nombreuses autres enjeux éthiques autour de ce produit existe: exploitation du travail humain derrière les données, exploitation des individus pour corriger le modèle, exploitation des ressources naturelles et toute l'instabilité géopolitique qu'elle cause, en sus de toute l'énergie grise nécessaire pour le développement de l'outil, la consommation d'énergie pour utiliser l'outil et aussi la question du financement de la tech (techno-fascisme), et j'en oublie...

Deuxièmement on nous affirme simultanément que ce produit est livré avec aucune garantie qualité, sujet à bug et cybermenaces, et qu'il va mettre des dev au chômage.

Dans quels autres secteurs d'activité une entreprise peut-elle se permettre de souffler le vent chaud et froid avec autant d'assurance et si peu de raison?
2  0 
Avatar de JackIsJack
Membre éclairé https://www.developpez.com
Le 04/10/2025 à 11:19
Allons même plus loin que les cahiers de tests... Où sont les applications déployées et utilisées ?

Pourquoi OpenIA/Claude ne dit pas : "voici telle application qui a été développée par l'IA et qui compte plus de 10 000 utilisateurs actifs par mois" ?

Ce serait dans leur intérêt de montrer que ça fonctionne jusqu'au bout, jusqu'à l'usage en condition réelle... Quitte même à tricher un peu en faisant des parties à la main.

Sauf que ça oublie un truc : c'est un enfer de faire des grosses évolutions sur un programme que l'on n'a pas écrit. Et les LLM perdent la tête à partir d'un certain volume de complexité.
1  0 
Avatar de d_d_v
Membre expérimenté https://www.developpez.com
Le 08/10/2025 à 9:28
Plutôt que de lui faire développer une application à la noix, ce serait plus intéressant de lui faire développer un budget de l'Etat français à l'équilibre (ou mieux, en excédent), ce qui nous permettrait par la suite de nous débarrasser des inutiles politiques. Voilà une application de l'IA qui serait intéressante !
1  0 
Avatar de Mister Nono
Membre chevronné https://www.developpez.com
Le 08/10/2025 à 9:46
Il faudrait demander à Claude d'écrire une IA Claude plus performante puisque écrite par l'IA.
1  0