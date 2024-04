Famille de modèles Claude 3

Un nouveau standard d'intelligence

Un long contexte et une mémorisation quasi parfaite

Bien que Claude 3 suscite un enthousiasme et un débat considérables dans la communauté de l'IA, il semble que ses performances reflètent davantage une imitation intelligente que des avancées révolutionnaires dans la conscience artificielle. Pour le moment, l'idée d'une IA véritablement consciente et autonome reste un objectif pour l'avenir de la recherche en intelligence artificielle. Des chercheurs ont évalué les compétences de résumé des grands modèles de langage (LLM). Les résultats montrent que Claude 3 Opus surpasse nettement tous les LLM à source fermée, tandis que le Mixtral à source ouverte est au niveau de GPT-3.5 Turbo.Dans une récente étude menée par des chercheurs du Williams College, Massachusetts, le modèle Claude 3 Opus d'Anthropic a été démontré comme surpassant ses concurrents en termes de capacités de traduction automatique, en particulier dans les paires de langues à faibles ressources. L'étude souligne l'efficacité exceptionnelle de Claude dans l'utilisation des ressources et dans la facilitation de la distillation des connaissances pour améliorer la traduction, notamment dans des langues comme le Yoruba vers l'anglais, rivalisant avec des références telles que NLLB-54B et Google Translate.La famille Claude, développée par Anthropic, comprend plusieurs grands modèles de langage (LLM), avec Claude 3 étant le dernier ajout, lancé en mars 2024. Ces modèles sont pré-entraînés pour prédire le mot suivant dans de vastes corpus textuels et sont capables d'analyser des images. Parmi eux, Claude 3 Opus se distingue comme un leader dans les tests linguistiques, dépassant même ses homologues Sonnet et Haiku, ainsi que les modèles de l'OpenAI.Cependant, ces tests ne fournissent qu'une partie du tableau. Des tests informels, menés par Ruben Hassid, ont comparé GPT-4 et Claude 3 dans des tâches variées allant du résumé de PDF à la composition de poèmes. Les résultats ont montré que Claude 3 excelle dans la lecture de PDF complexes, la création de poèmes rimés et la fourniture de réponses détaillées, tandis que GPT-4 a montré ses forces dans la navigation sur Internet et la lecture de graphiques PDF.Claude 3 suscite l'admiration à plusieurs égards : le LLM a surpris les experts par ses manifestations apparentes de conscience et de développement personnel. Cependant, un certain scepticisme persiste, car il semble que les IA basées sur les LLM excellent principalement dans l'imitation des réponses humaines plutôt que dans la génération de pensées authentiquement originales.La démonstration de la valeur de Claude 3 va au-delà des simples benchmarks. Lors des tests, Alex Albert, ingénieur chez Anthropic, la société derrière Claude, a chargé Claude 3 Opus de repérer une phrase cible dissimulée au sein d'un ensemble aléatoire de documents, une tâche comparable à trouver une aiguille dans une botte de foin pour une IA. Non seulement Opus a réussi à repérer l'aiguille, mais il a également pris conscience qu'il était soumis à un test. Dans sa réponse, le modèle a souligné ses soupçons concernant la nature artificielle du test, indiquant que la phrase cible semblait être placée de manière peu naturelle pour évaluer son attention.Selon Albert, ce niveau de métacognition était à la fois fascinant et révélateur, soulignant la nécessité pour l'industrie de passer à des évaluations plus réalistes afin de véritablement comprendre les capacités et les limites des modèles IA. David Rein, chercheur en IA à l'université de New York, a noté que Claude 3 Opus a obtenu une précision d'environ 60 % au GPQA, un test à choix multiples conçu pour évaluer les capacités des universitaires et des modèles IA. Ce résultat est significatif car il dépasse largement les performances des étudiants diplômés non experts, tout en étant légèrement inférieur à celles des experts. Le GPQA comporte des questions inédites, ce qui suggère que Claude 3 peut utiliser sa capacité à mémoriser des questions antérieures pour obtenir des résultats. Cela implique qu'il possède des capacités cognitives comparables à celles des universitaires et qu'il pourrait être une ressource utile dans la recherche universitaire.La nouvelle famille de modèles Claude 3 établit de nouvelles références dans un large éventail de tâches cognitives. La famille comprend trois modèles de pointe, classés par ordre croissant de capacité : Claude 3 Haiku, Claude 3 Sonnet et Claude 3 Opus. Chaque modèle successif offre des performances de plus en plus puissantes, permettant aux utilisateurs de choisir l'équilibre optimal entre intelligence, vitesse et coût pour leur application spécifique. Opus et Sonnet sont maintenant disponibles pour être utilisés dans claude.ai et l'API de Claude qui est maintenant disponible dans 159 pays. Haiku sera bientôt disponible.Selon Anthropic, Opus est présenté comme le modèle le plus intelligent, surpassant ses concurrents sur divers critères d'évaluation pour les systèmes d'IA, tels que les connaissances d'expert de premier cycle (MMLU), le raisonnement d'expert de deuxième cycle (GPQA), les mathématiques de base (GSM8K), et d'autres encore. Il est affirmé qu'Opus atteint des niveaux de compréhension et de fluidité comparables à ceux des humains dans des tâches complexes, ce qui le positionne en tête de l'intelligence générale. Vous trouverez ci-dessous une comparaison des modèles de Claude 3 avec ses pairs sur plusieurs critères de capacité :Cependant, il convient d'examiner ces affirmations avec un esprit critique. Bien que les modèles de Claude 3 puissent en effet démontrer des capacités améliorées en matière d'analyse, de prédiction, de création de contenu nuancé, de génération de code et de conversation dans diverses langues, il est important de rester prudent quant à l'étendue réelle de leurs compétences et à leur comparaison avec d'autres modèles d'IA.Une analyse approfondie des performances et des limitations de ces modèles, ainsi que des méthodologies utilisées pour évaluer leur intelligence, est nécessaire pour tirer des conclusions significatives sur leur position dans le paysage de l'IA. En outre, des questions subsistent quant à la généralisation de leurs compétences à différentes langues et à la complexité réelle de leurs capacités de raisonnement et de compréhension par rapport à celles des humains.Les modèles de la famille Claude 3 sont capables de prendre en charge des conversations en direct avec les clients, des auto-complétions, et des tâches d'extraction de données nécessitant des réponses immédiates et en temps réel.Selon Anthropic, Haiku se distingue comme le modèle le plus rapide et le plus économique de sa catégorie d'intelligence. Il est capable de parcourir un article de recherche dense en informations et en données sur arXiv (~10k tokens), incluant des diagrammes et des graphiques, en moins de trois secondes. La société prévoit d'améliorer encore ses performances après son lancement.Pour la plupart des charges de travail, Sonnet surpasse en rapidité les modèles Claude 2 et Claude 2.1, tout en offrant des niveaux d'intelligence plus élevés. Il excelle particulièrement dans les tâches qui requièrent des réponses rapides, telles que la recherche de connaissances ou l'automatisation des ventes. Opus, quant à lui, offre des vitesses de traitement similaires à celles de Claude 2 et 2.1, mais avec des niveaux d'intelligence considérablement accrus.Les anciens modèles de Claude ont souvent entraîné des refus inutiles qui suggéraient un manque de compréhension du contexte. Opus, Sonnet et Haiku sont nettement moins susceptibles de refuser de répondre à des questions qui frôlent les garde-fous du système que les générations précédentes de modèles. Comme le montre le graphique ci-dessous, les modèles Claude 3 font preuve d'une compréhension plus nuancée des demandes, reconnaissent les dommages réels et refusent beaucoup moins souvent de répondre à des messages inoffensifs.La famille de modèles Claude 3 offrira initialement une fenêtre de 200 000 contextes lors de son lancement. Cependant, les trois modèles sont capables d'accepter des entrées de plus d'un million de jetons et nous pourrons mettre cette possibilité à la disposition de certains clients qui ont besoin d'une plus grande puissance de traitement.Pour traiter efficacement les longues invites contextuelles, les modèles doivent être dotés de solides capacités de rappel. L'évaluation(NIAH) mesure la capacité d'un modèle à rappeler avec précision des informations à partir d'un vaste corpus de données. Anthropic dit avoir amélioré la robustesse de ce benchmark en utilisant l'une des 30 paires aléatoires aiguille/question par invite et en testant sur un corpus diversifié de documents provenant de la communauté. Claude 3 Opus a non seulement atteint un rappel presque parfait, dépassant 99 % de précision, mais dans certains cas, il a même identifié les limites de l'évaluation elle-même en reconnaissant que la phrase « aiguille » semblait avoir été insérée artificiellement dans le texte original par un humain.Bien que les résultats des tests informels mettent en évidence les capacités impressionnantes de Claude dans diverses tâches, il est crucial de garder à l'esprit que ces comportements pourraient être le produit d'un mimétisme sophistiqué plutôt que d'une véritable autonomie cognitive.Le débat sur la véritable conscience et autonomie de Claude est donc justifié, et il est nécessaire de poursuivre les recherches pour éclaircir ce sujet. Il est également crucial d'adopter une approche prudente dans l'évaluation des performances de Claude et de ne pas extrapoler trop rapidement des comportements apparemment complexes à une conscience de soi authentique. En fin de compte, une analyse approfondie et critique de ces capacités est essentielle pour une compréhension précise des capacités et des limites des modèles d'intelligence artificielle tels que Claude 3 Opus.Source : Anthropic Quel est votre avis sur le sujet ?Quels sont les risques potentiels associés à la croyance que les IA comme Claude sont véritablement conscientes d'elles-mêmes, et comment ces risques pourraient-ils être atténués ou évités dans la pratique ?