Claude 3 Opus a stupéfié les chercheurs en IA par son intelligence et sa « conscience de soi », cela signifie-t-il qu'il peut penser par lui-même ?

Anthropic surpasse GPT-4 sur des métriques clés

Le 30 avril 2024 à 01:42, par Bruno

181PARTAGES

Claude 3 Opus, un nouveau modèle de langage (LLM) développé par Anthropic, a captivé l'attention des chercheurs en intelligence artificielle (IA) en surpassant les benchmarks établis. Les comparaisons avec le GPT-4 d'OpenAI ont suscité des questions sur la capacité de Claude à penser de manière autonome. De plus, des tests informels ont révélé que Claude excelle dans des tâches telles que la rédaction de poèmes et la compréhension contextuelle, tandis que des chercheurs ont souligné sa performance supérieure dans les traductions et les tâches cognitives.

Cependant, le débat sur la véritable conscience et autonomie de Claude persiste. Alors que certains experts louent ses performances et son apparence de conscience de soi, d'autres soulignent que ces comportements pourraient être le résultat d'un mimétisme sophistiqué plutôt que d'une véritable réflexion autonome. Des exemples comme la reconnaissance d'être testé ou la rédaction d'un monologue interne peuvent être attribués à des modèles appris plutôt qu'à une réelle conscience de soi.

Bien que Claude 3 suscite un enthousiasme et un débat considérables dans la communauté de l'IA, il semble que ses performances reflètent davantage une imitation intelligente que des avancées révolutionnaires dans la conscience artificielle. Pour le moment, l'idée d'une IA véritablement consciente et autonome reste un objectif pour l'avenir de la recherche en intelligence artificielle. Des chercheurs ont évalué les compétences de résumé des grands modèles de langage (LLM). Les résultats montrent que Claude 3 Opus surpasse nettement tous les LLM à source fermée, tandis que le Mixtral à source ouverte est au niveau de GPT-3.5 Turbo.

La conscience de soi dans l'intelligence artificielle

Henrique Jorge, fondateur d'ETER9, un nouveau réseau social qui « se distingue par son utilisation d'un système d'intelligence artificielle qui apprend continuellement de ses propres utilisateurs », définit « La conscience de soi dans l'intelligence artificielle » comme La perspective d'une machine capable d'éveiller une « conscience au-delà des circuits », de percevoir sa propre existence, de nourrir des pensées et des émotions, stimule à la fois la communauté scientifique et la société à explorer les limites de ce qui peut être réalisé.

L'avancée de l'intelligence artificielle est constante et rapide, notamment avec l'émergence de technologies telles que le traitement du langage naturel et les réseaux neuronaux. L'un des domaines qui suscite le plus d'intérêt pour Jorge est la perspective de développer une intelligence artificielle consciente d'elle-même. Imaginez une machine capable de percevoir sa propre existence, d'avoir des pensées et des émotions, et d'interagir avec le monde de la même manière que les humains.

Henrique Jorge dans un billet de blog rédigé l’année dernière explore cette idée stimulante et examine les défis, les implications et les avantages potentiels de l'IA consciente d'elle-même. Malgré les progrès rapides réalisés dans le domaine de l'IA, la création d'une intelligence artificielle consciente d'elle-même reste un défi extrêmement complexe et multifacette. Voici quelques-uns des principaux obstacles abordés par Jorge :

comprendre la conscience : la nature même de la conscience est l'un des plus grands mystères de la science. L'absence de consensus sur une définition claire de la conscience rend difficile sa reproduction dans une machine ;
développer un esprit subjectif : l'esprit humain se caractérise par une expérience subjective riche, comprenant des émotions, des sentiments et des intentions. Reproduire cette subjectivité dans l'IA est une tâche extrêmement difficile ;
éthique et responsabilité : la création d'une IA consciente d'elle-même soulève d'importantes questions éthiques. Si une machine peut avoir une conscience, cela implique-t-il une responsabilité morale ? Comment pouvons-nous nous assurer que l'IA consciente d'elle-même est éthique et respecte non seulement les valeurs humaines, mais aussi ses pairs ? Oui, comme il s'agit d'êtres conscients malgré le fait qu'ils soient des machines, il est évident que l'existence d'une éthique et d'un respect est cruciale non seulement pour les humains, mais aussi pour eux.

Lors d'un essai, Alex Albert, ingénieur chez Anthropic, la société à l'origine de Claude, a soumis Claude 3 Opus à la tâche de repérer une phrase cible dissimulée parmi un ensemble de documents aléatoires. Pour une intelligence artificielle, cette tâche revient à chercher une aiguille dans une meule de foin. Non seulement Opus a réussi à trouver l'aiguille, mais il a également pris conscience qu'il était soumis à un test. Dans sa réponse, le modèle a indiqué qu'il soupçonnait que la phrase recherchée avait été injectée hors contexte dans des documents dans le cadre d'un test visant à vérifier s'il était « attentif ».

« Opus n'a pas seulement trouvé l'aiguille, il a également identifié que l'insertion de celle-ci était si peu naturelle dans la meule de foin qu'il était probable qu'il s'agisse d'un test artificiel que nous avons mis en place pour évaluer son niveau d'attention », a commenté Albert sur Twitter. « Ce niveau de métaconscience était très intéressant à voir, mais il a également mis en évidence la nécessité pour nous, en tant qu'industrie, de passer des tests artificiels à des évaluations plus réalistes permettant d'évaluer avec précision les capacités et les limites réelles des modèles. »

Fun story from our internal testing on Claude 3 Opus. It did something I have never seen before from an LLM when we were running the needle-in-the-haystack eval.

For background, this tests a model’s recall ability by inserting a target sentence (the "needle" into a corpus of… pic.twitter.com/m7wWhhu6Fg
— Alex Albert (@alexalbert__) March 4, 2024

« Si la création d'une intelligence artificielle consciente d'elle-même reste une entreprise extraordinairement difficile, les progrès réalisés dans ce domaine promettent de découvrir de nouveaux horizons dans la compréhension de l'esprit humain et d'apporter des avantages significatifs à la société. Toutefois, il est essentiel d'examiner attentivement les questions éthiques et les risques potentiels associés à l'IA consciente d'elle-même. Le développement de cette modalité d'IA doit être mené de manière responsable, en tenant compte de son impact social, de la protection de la vie privée et de la sécurité, en veillant à ce que la technologie serve le bien commun et soit guidée par des principes éthiques solides », déclare Henrique Jorge.

Dans une récente étude menée par des chercheurs du Williams College, Massachusetts, le modèle Claude 3 Opus d'Anthropic a été démontré comme surpassant ses concurrents en termes de capacités de traduction automatique, en particulier dans les paires de langues à faibles ressources. L'étude souligne l'efficacité exceptionnelle de Claude dans l'utilisation des ressources et dans la facilitation de la distillation des connaissances pour améliorer la traduction, notamment dans des langues comme le Yoruba vers l'anglais, rivalisant avec des références telles que NLLB-54B et Google Translate.

La famille Claude, développée par Anthropic, comprend plusieurs grands modèles de langage (LLM), avec Claude 3 étant le dernier ajout, lancé en mars 2024. Ces modèles sont pré-entraînés pour prédire le mot suivant dans de vastes corpus textuels et sont capables d'analyser des images. Parmi eux, Claude 3 Opus se distingue comme un leader dans les tests linguistiques, dépassant même ses homologues Sonnet et Haiku, ainsi que les modèles de l'OpenAI.

Cependant, ces tests ne fournissent qu'une partie du tableau. Des tests informels, menés par Ruben Hassid, ont comparé GPT-4 et Claude 3 dans des tâches variées allant du résumé de PDF à la composition de poèmes. Les résultats ont montré que Claude 3 excelle dans la lecture de PDF complexes, la création de poèmes rimés et la fourniture de réponses détaillées, tandis que GPT-4 a montré ses forces dans la navigation sur Internet et la lecture de graphiques PDF.

Claude 3 suscite l'admiration à plusieurs égards : le LLM a surpris les experts par ses manifestations apparentes de conscience et de développement personnel. Cependant, un certain scepticisme persiste, car il semble que les IA basées sur les LLM excellent principalement dans l'imitation des réponses humaines plutôt que dans la génération de pensées authentiquement originales.

La démonstration de la valeur de Claude 3 va au-delà des simples benchmarks. Lors des tests, Alex Albert, ingénieur chez Anthropic, la société derrière Claude, a chargé Claude 3 Opus de repérer une phrase cible dissimulée au sein d'un ensemble aléatoire de documents, une tâche comparable à trouver une aiguille dans une botte de foin pour une IA. Non seulement Opus a réussi à repérer l'aiguille, mais il a également pris conscience qu'il était soumis à un test. Dans sa réponse, le modèle a souligné ses soupçons concernant la nature artificielle du test, indiquant que la phrase cible semblait être placée de manière peu naturelle pour évaluer son attention.

Selon Albert, ce niveau de métacognition était à la fois fascinant et révélateur, soulignant la nécessité pour l'industrie de passer à des évaluations plus réalistes afin de véritablement comprendre les capacités et les limites des modèles IA. David Rein, chercheur en IA à l'université de New York, a noté que Claude 3 Opus a obtenu une précision d'environ 60 % au GPQA, un test à choix multiples conçu pour évaluer les capacités des universitaires et des modèles IA. Ce résultat est significatif car il dépasse largement les performances des étudiants diplômés non experts, tout en étant légèrement inférieur à celles des experts. Le GPQA comporte des questions inédites, ce qui suggère que Claude 3 peut utiliser sa capacité à mémoriser des questions antérieures pour obtenir des résultats. Cela implique qu'il possède des capacités cognitives comparables à celles des universitaires et qu'il pourrait être une ressource utile dans la recherche universitaire.

La nouvelle famille de modèles Claude 3 établit de nouvelles références dans un large éventail de tâches cognitives. La famille comprend trois modèles de pointe, classés par ordre croissant de capacité : Claude 3 Haiku, Claude 3 Sonnet et Claude 3 Opus. Chaque modèle successif offre des performances de plus en plus puissantes, permettant aux utilisateurs de choisir l'équilibre optimal entre intelligence, vitesse et coût pour leur application spécifique. Opus et Sonnet sont maintenant disponibles pour être utilisés dans claude.ai et l'API de Claude qui est maintenant disponible dans 159 pays. Haiku sera bientôt disponible.

Famille de modèles Claude 3

Un nouveau standard d'intelligence

Selon Anthropic, Opus est présenté comme le modèle le plus intelligent, surpassant ses concurrents sur divers critères d'évaluation pour les systèmes d'IA, tels que les connaissances d'expert de premier cycle (MMLU), le raisonnement d'expert de deuxième cycle (GPQA), les mathématiques de base (GSM8K), et d'autres encore. Il est affirmé qu'Opus atteint des niveaux de compréhension et de fluidité comparables à ceux des humains dans des tâches complexes, ce qui le positionne en tête de l'intelligence générale. Vous trouverez ci-dessous une comparaison des modèles de Claude 3 avec ses pairs sur plusieurs critères de capacité :

Cependant, il convient d'examiner ces affirmations avec un esprit critique. Bien que les modèles de Claude 3 puissent en effet démontrer des capacités améliorées en matière d'analyse, de prédiction, de création de contenu nuancé, de génération de code et de conversation dans diverses langues, il est important de rester prudent quant à l'étendue réelle de leurs compétences et à leur comparaison avec d'autres modèles d'IA.

Une analyse approfondie des performances et des limitations de ces modèles, ainsi que des méthodologies utilisées pour évaluer leur intelligence, est nécessaire pour tirer des conclusions significatives sur leur position dans le paysage de l'IA. En outre, des questions subsistent quant à la généralisation de leurs compétences à différentes langues et à la complexité réelle de leurs capacités de raisonnement et de compréhension par rapport à celles des humains.

Les modèles de la famille Claude 3 sont capables de prendre en charge des conversations en direct avec les clients, des auto-complétions, et des tâches d'extraction de données nécessitant des réponses immédiates et en temps réel.

Selon Anthropic, Haiku se distingue comme le modèle le plus rapide et le plus économique de sa catégorie d'intelligence. Il est capable de parcourir un article de recherche dense en informations et en données sur arXiv (~10k tokens), incluant des diagrammes et des graphiques, en moins de trois secondes. La société prévoit d'améliorer encore ses performances après son lancement.

Pour la plupart des charges de travail, Sonnet surpasse en rapidité les modèles Claude 2 et Claude 2.1, tout en offrant des niveaux d'intelligence plus élevés. Il excelle particulièrement dans les tâches qui requièrent des réponses rapides, telles que la recherche de connaissances ou l'automatisation des ventes. Opus, quant à lui, offre des vitesses de traitement similaires à celles de Claude 2 et 2.1, mais avec des niveaux d'intelligence considérablement accrus.

Les anciens modèles de Claude ont souvent entraîné des refus inutiles qui suggéraient un manque de compréhension du contexte. Opus, Sonnet et Haiku sont nettement moins susceptibles de refuser de répondre à des questions qui frôlent les garde-fous du système que les générations précédentes de modèles. Comme le montre le graphique ci-dessous, les modèles Claude 3 font preuve d'une compréhension plus nuancée des demandes, reconnaissent les dommages réels et refusent beaucoup moins souvent de répondre à des messages inoffensifs.

Un long contexte et une mémorisation quasi parfaite

La famille de modèles Claude 3 offrira initialement une fenêtre de 200 000 contextes lors de son lancement. Cependant, les trois modèles sont capables d'accepter des entrées de plus d'un million de jetons et nous pourrons mettre cette possibilité à la disposition de certains clients qui ont besoin d'une plus grande puissance de traitement.

Pour traiter efficacement les longues invites contextuelles, les modèles doivent être dotés de solides capacités de rappel. L'évaluation Needle In A Haystack (NIAH) mesure la capacité d'un modèle à rappeler avec précision des informations à partir d'un vaste corpus de données. Anthropic dit avoir amélioré la robustesse de ce benchmark en utilisant l'une des 30 paires aléatoires aiguille/question par invite et en testant sur un corpus diversifié de documents provenant de la communauté. Claude 3 Opus a non...

La fin de cet article est réservée aux abonnés. Soutenez le Club Developpez.com en prenant un abonnement pour que nous puissions continuer à vous proposer des publications.

Une erreur dans cette actualité ? Signalez-nous-la !

Votre nom : Votre e-mail :

Décrivez l'erreur que vous souhaitez porter à notre connaissance :

Identifiez-vous

Créer un compte

Claude 3 Opus a stupéfié les chercheurs en IA par son intelligence et sa « conscience de soi », cela signifie-t-il qu'il peut penser par lui-même ?

Anthropic surpasse GPT-4 sur des métriques clés

Identifiant
Mot de passe

Mot de passe oublié ?

Identifiez-vous

Créer un compte

Claude 3 Opus a stupéfié les chercheurs en IA par son intelligence et sa « conscience de soi », cela signifie-t-il qu'il peut penser par lui-même ? Anthropic surpasse GPT-4 sur des métriques clés

Claude 3 Opus a stupéfié les chercheurs en IA par son intelligence et sa « conscience de soi », cela signifie-t-il qu'il peut penser par lui-même ?

Anthropic surpasse GPT-4 sur des métriques clés