Anthropic a lancé Claude 3.5 Sonnet en juin 2024, affirmant qu'il est plus performant que les modèles précédents et que le GPT-4 Omni d'OpenAI. Claude 3.5 Sonnet fonctionne deux fois plus vite que Claude 3 Opus. Cette augmentation des performances, combinée à un prix avantageux, ferait de Claude 3.5 Sonnet la solution idéale pour les tâches complexes telles que le support client contextuel et l'orchestration de flux de travail à plusieurs étapes, d'après Anthropic.
Le 22 octobre 2024, Anthropic a publié une version améliorée de son modèle d'IA Claude 3.5 Sonnet et a annoncé un nouveau modèle, Claude 3.5 Haiku, ainsi qu'une fonction bêta publique permettant à l'IA d'utiliser les ordinateurs comme des humains. Le modèle Sonnet amélioré offrirait de meilleures capacités de codage, obtenant un score de 49 % sur le benchmark SWEbench Verified. Le modèle Haiku atteint les mêmes performances que le modèle phare d'Anthropic, le Claude 3 Opus, tout en restant moins cher et plus rapide.
La fonction d'utilisation de l'ordinateur, disponible via l'API d'Anthropic et les partenaires cloud, permet à Claude d'effectuer des tâches telles que naviguer sur des navigateurs web, remplir des formulaires et manipuler des données. Parmi les premiers utilisateurs figurent Asana, DoorDash et Replit, bien qu'Anthropic - soutenu par des investisseurs tels que Google et Amazon - reconnaisse que cette fonctionnalité reste expérimentale et sujette aux erreurs. Claude 3.5 Haiku sera lancé dans le courant du mois, prenant en charge dans un premier temps les saisies de texte uniquement, et dans un second temps les saisies d'images.
Voici les déclarations d'Anthropic pour l'annonce :
Aujourd'hui, nous annonçons une version améliorée de Claude 3.5 Sonnet et un nouveau modèle, Claude 3.5 Haiku. La version améliorée de Claude 3.5 Sonnet apporte des améliorations générales par rapport à son prédécesseur, avec des gains particulièrement significatifs en matière de codage - un domaine dans lequel il était déjà en tête. Claude 3.5 Haiku égale les performances de Claude 3 Opus, notre plus grand modèle précédent, sur de nombreuses évaluations pour le même coût et une vitesse similaire à la génération précédente de Haiku.
Nous introduisons également une nouvelle fonctionnalité révolutionnaire dans la version bêta publique : l'utilisation de l'ordinateur. Disponible dès aujourd'hui sur l'API, les développeurs peuvent demander à Claude d'utiliser les ordinateurs comme le font les gens, en regardant un écran, en déplaçant un curseur, en cliquant sur des boutons et en tapant du texte. Claude 3.5 Sonnet est le premier modèle d'IA d'avant-garde à proposer l'utilisation d'un ordinateur en version bêta publique. À ce stade, il s'agit encore d'une méthode expérimentale, parfois lourde et sujette aux erreurs. Nous publions l'utilisation de l'ordinateur de manière anticipée afin de recueillir les commentaires des développeurs, et nous nous attendons à ce que cette fonctionnalité s'améliore rapidement au fil du temps.
Asana, Canva, Cognition, DoorDash, Replit et The Browser Company ont déjà commencé à explorer ces possibilités, en effectuant des tâches qui nécessitent des dizaines, voire des centaines d'étapes. Par exemple, Replit utilise les capacités de Claude 3.5 Sonnet en matière d'utilisation de l'ordinateur et de navigation dans l'interface utilisateur pour développer une fonctionnalité clé qui évalue les applications au fur et à mesure de leur création pour leur produit Replit Agent.
La version améliorée de Claude 3.5 Sonnet est maintenant disponible pour tous les utilisateurs. A partir d'aujourd'hui, les développeurs peuvent construire avec la version bêta de l'utilisation de l'ordinateur sur l'API Anthropic, Amazon Bedrock, et Google Cloud's Vertex AI. La nouvelle version Claude 3.5 Haiku sera disponible dans le courant du mois.
Nous introduisons également une nouvelle fonctionnalité révolutionnaire dans la version bêta publique : l'utilisation de l'ordinateur. Disponible dès aujourd'hui sur l'API, les développeurs peuvent demander à Claude d'utiliser les ordinateurs comme le font les gens, en regardant un écran, en déplaçant un curseur, en cliquant sur des boutons et en tapant du texte. Claude 3.5 Sonnet est le premier modèle d'IA d'avant-garde à proposer l'utilisation d'un ordinateur en version bêta publique. À ce stade, il s'agit encore d'une méthode expérimentale, parfois lourde et sujette aux erreurs. Nous publions l'utilisation de l'ordinateur de manière anticipée afin de recueillir les commentaires des développeurs, et nous nous attendons à ce que cette fonctionnalité s'améliore rapidement au fil du temps.
Asana, Canva, Cognition, DoorDash, Replit et The Browser Company ont déjà commencé à explorer ces possibilités, en effectuant des tâches qui nécessitent des dizaines, voire des centaines d'étapes. Par exemple, Replit utilise les capacités de Claude 3.5 Sonnet en matière d'utilisation de l'ordinateur et de navigation dans l'interface utilisateur pour développer une fonctionnalité clé qui évalue les applications au fur et à mesure de leur création pour leur produit Replit Agent.
La version améliorée de Claude 3.5 Sonnet est maintenant disponible pour tous les utilisateurs. A partir d'aujourd'hui, les développeurs peuvent construire avec la version bêta de l'utilisation de l'ordinateur sur l'API Anthropic, Amazon Bedrock, et Google Cloud's Vertex AI. La nouvelle version Claude 3.5 Haiku sera disponible dans le courant du mois.
Présentation de la version améliorée de Claude 3.5 Sonnet
La mise à jour de Claude 3.5 Sonnet montre de nombreuses améliorations sur les benchmarks de l'industrie, avec des gains particulièrement importants dans les tâches de codage agentique et d'utilisation d'outils. En ce qui concerne le codage, il améliore les performances sur le banc SWE Verified de 33,4 % à 49,0 %, obtenant un score plus élevé. Il améliore également les performances sur TAU-bench, une tâche d'utilisation d'outils agentiques, de 62,6 % à 69,2 % dans le domaine de la vente au détail, et de 36,0 % à 46,0 % dans le domaine plus difficile des compagnies aériennes. Le nouveau Claude 3.5 Sonnet offre ces avancées au même prix et à la même vitesse que son prédécesseur.
Les premiers retours des clients suggèrent que la version améliorée de Claude 3.5 Sonnet représente une avancée significative pour le codage alimenté par l'IA. GitLab, qui a testé le modèle pour des tâches DevSecOps, a constaté qu'il offrait un raisonnement plus fort (jusqu'à 10 % selon les cas d'utilisation) sans latence supplémentaire, ce qui en fait un choix idéal pour alimenter les processus de développement de logiciels en plusieurs étapes. Cognition utilise le nouveau Claude 3.5 Sonnet pour les évaluations d'IA autonomes, et a constaté des améliorations substantielles dans le codage, la planification et la résolution de problèmes par rapport à la version précédente. The Browser Company, en utilisant le modèle pour automatiser les flux de travail basés sur le web, a noté que Claude 3.5 Sonnet surpassait tous les modèles qu'ils avaient testés auparavant.
Concernant la sécurité du modèle, Anthropic annonce avoir mené des tests conjoints de pré-déploiement du nouveau modèle Claude 3.5 Sonnet en partenariat avec l'US AI Safety Institute (US AISI) et l'UK Safety Institute (UK AISI). Anthropic aurait également évalué les risques catastrophiques de la version améliorée de Claude 3.5 Sonnet et avons constaté que la norme ASL-2, dans sa politique de mise à l'échelle responsable, reste appropriée pour le modèle.
Claude 3.5 Haiku : une modèle entre l'accessibilité et la rapidité
Claude 3.5 Haiku est la nouvelle génération de Claude 3 Haiku, qu'Anthropic qualifie de modèle "le plus rapide". Pour le même coût et une vitesse similaire, Claude 3.5 Haiku s'améliore dans tous les domaines de compétences et surpasse même Claude 3 Opus, le plus grand modèle de la génération précédente, sur de nombreux benchmarks d'intelligence. Claude 3.5 Haiku serait particulièrement performant dans les tâches de codage. Par exemple, il obtient un score de 40,6 % sur le banc d'essai SWE Verified, surpassant de nombreux agents utilisant des modèles de pointe publiquement disponibles, y compris le Claude 3.5 Sonnet original et le GPT-4o.
Avec une faible latence, un meilleur suivi des instructions et une utilisation plus précise des outils, Claude 3.5 Haiku serait bien adapté aux produits destinés aux utilisateurs, aux tâches spécialisées des sous-agents et à la génération d'expériences personnalisées à partir d'énormes volumes de données, comme l'historique des achats, les prix ou les registres d'inventaire. Claude 3.5 Haiku sera disponible dans le courant du mois d'octobre 2024 à travers les API Amazon Bedrock et Vertex AI de Google Cloud - initialement en tant que modèle texte uniquement et avec une entrée d'image à suivre.
Apprendre à Claude à naviguer sur les ordinateurs de manière responsable
En ce qui concerne l'utilisation des ordinateurs, Anthropic souhaite présenter quelque chose de fondamentalement nouveau. Au lieu de créer des outils spécifiques pour aider Claude à accomplir des tâches individuelles, Anthropic aurait enseigner des compétences informatiques générales, pour permettre au modèle d'utiliser une large gamme d'outils et de logiciels standard conçus pour les humains. Les développeurs peuvent utiliser cette capacité naissante pour automatiser des processus répétitifs, construire et tester des logiciels, et mener des tâches ouvertes comme la recherche.
Pour rendre ces compétences générales possibles, Anthropic propose une API qui permet à Claude de percevoir et d'interagir avec des interfaces informatiques. Les développeurs peuvent intégrer cette API pour permettre à Claude de traduire des instructions en commandes informatiques. Par exemple : "utiliser les données de mon ordinateur et en ligne pour remplir ce formulaire" se traduit par "vérifier une feuille de calcul ; déplacer le curseur pour ouvrir un navigateur web ; naviguer vers les pages web pertinentes ; remplir un formulaire avec les données de ces pages ; et ainsi de suite".
Sur OSWorld, qui évalue la capacité des modèles d'IA à utiliser les ordinateurs comme le font les gens, Claude 3.5 Sonnet a obtenu un score de 14,9 % dans la catégorie des captures d'écran uniquement, ce qui est nettement mieux que le score de 7,8 % du système d'IA suivant. Lorsqu'il disposait d'un plus grand nombre d'étapes pour accomplir la tâche, Claude a obtenu un score de 22,0 %.
Anthropic commente cette nouvelle fonctionnalité :
Bien que nous nous attendions à ce que cette capacité s'améliore rapidement dans les mois à venir, la capacité actuelle de Claude à utiliser les ordinateurs est imparfaite. Certaines actions que les gens effectuent sans effort - faire défiler, glisser, zoomer - présentent actuellement des difficultés pour Claude et nous encourageons les développeurs à commencer l'exploration par des tâches à faible risque.
L'utilisation de l'ordinateur pouvant constituer un nouveau vecteur pour des menaces plus familières telles que le spam, la désinformation ou la fraude, nous adoptons une approche proactive pour promouvoir son déploiement en toute sécurité. Nous avons mis au point de nouveaux classificateurs capables d'identifier le moment où l'ordinateur est utilisé et de déterminer s'il y a préjudice. Pour en savoir plus sur le processus de recherche à l'origine de cette nouvelle compétence, ainsi que sur les mesures de sécurité, consultez notre article sur le développement de l'utilisation de l'ordinateur.
L'utilisation de l'ordinateur pouvant constituer un nouveau vecteur pour des menaces plus familières telles que le spam, la désinformation ou la fraude, nous adoptons une approche proactive pour promouvoir son déploiement en toute sécurité. Nous avons mis au point de nouveaux classificateurs capables d'identifier le moment où l'ordinateur est utilisé et de déterminer s'il y a préjudice. Pour en savoir plus sur le processus de recherche à l'origine de cette nouvelle compétence, ainsi que sur les mesures de sécurité, consultez notre article sur le développement de l'utilisation de l'ordinateur.
Et vous ?
Quel est votre avis sur ces nouveaux modèles ?
Pensez-vous que cette nouvelle fonctionnalité "utilisation des ordinateurs" est crédible ou pertinente ?
Voir aussi :
Anthropic vous permet désormais de créer des agents d'IA pour que son chatbot Claude travaille pour vous : assistant de messagerie, bot d'achat, ou autres solutions personnalisées, avec n'importe quelle API
Qualité vs prix : Mistral 8x7B est le modèle d'IA le plus rapide et le plus accessible en matière de coût, tandis que GPT-4 Turbo et Claude 3 Opus fournissent des réponses de meilleure qualité
Des équipes d'agents LLM peuvent exploiter de manière autonome des vulnérabilités de type "zero-day". Les acteurs "black-hat" peuvent désormais utiliser des agents d'IA pour pirater des sites Web