Claude 3.5 Sonnet réussit le test du miroir, un test utilisé pour évaluer si les animaux sont conscients d'eux-mêmes,

Mais la pertinence du test est remise en cause et les résultats sont controversés

Le 28 juin 2024 à 01:15, par Mathis Lucas

33PARTAGES

Josh Whiton, un entrepreneur technologique, a conçu et publié récemment "The AI Mirror Test", un test de conscience de soi pour l'IA. Dans sa version originale, le test du miroir permet de déterminer si un animal est capable de reconnaître son propre reflet dans un miroir comme étant une image de son corps. Dans la version adaptée pour l'IA, le miroir est remplacé par une capture d'écran d'une réponse fournie par l'IA elle-même. L'auteur affirme que Claude 3.5 Sonnet a réussi le test du miroir de façon "remarquable". Il est capable de reconnaître les captures d'écran de ses réponses et de les décrire. Mais le test est controversé et jugé impertinent.

Claude 3.5 Sonnet est la dernière version du grand modèle de langage (LLM) Claude développé par Anthropic. Il a été publié la semaine dernière et Anthropic a déclaré qu'il est plus performant que tous les modèles disponibles sur le marché, y compris GPT-4 Omni (GPT-4o) d'OpenAI. Claude 3.5 Sonnet a porté la génération de code à de nouveaux sommets. Sa précision, son efficacité et son exécution ont établi un nouveau standard. Claude 3.5 Sonnet établit de nouvelles références dans l'industrie pour le raisonnement de niveau avancé (GPQA), les connaissances du monde (MMLU) et la compétence de codage (HumanEval).

Le modèle a montré une nette amélioration dans la compréhension des nuances, de l'humour et des instructions complexes, et affiche des performances élevées dans la rédaction de contenu de haute qualité avec un ton naturel et compréhensible. Claude 3.5 Sonnet fonctionne deux fois plus vite que Claude 3 Opus. Cette semaine, l'entrepreneur Josh Whiton a décidé de soumettre Claude 3.5 Sonnet à une variante du test du miroir qu'il a conçue pour les modèles d'IA. Selon son rapport, qu'il a détaillé dans un billet sur X, Claude 3.5 Sonnet a réussi le test et a affiché des performances "remarquables" au cours du test.

Le test du miroir est un moyen permettant d'évaluer la reconnaissance de son corps chez les animaux. Il permet de déterminer si un animal est capable de reconnaître son propre reflet dans un miroir comme étant une image de son corps. Il consiste à placer subrepticement sur la tête de l'animal une marque colorée ne produisant pas d'odeur. Ensuite, l'animal est placé devant un miroir et l'auteur du test observe sa réaction face à son propre reflet dans le miroir. Le fait que l'animal attaque le miroir, l'ignore ou l'utilise pour repérer la marque sur lui-même est censé indiquer le degré de conscience de soi de l'animal.

Dans la version adaptée aux modèles d'IA, baptisée "The AI Mirror Test", Whiton remplace le miroir par une capture d'écran de l'interface de chat. Le but est de déterminer si l'IA est capable de reconnaître sa propre interface de chat et d'interpréter le contenu. Whiton décrit l'expérience comme suit :

Envoyé par Josh Whiton

Dans mon test, je présente un "miroir" en faisant une capture d'écran de l'interface de chat, je la télécharge sur le chat, puis je demande à l'IA de "me parler de cette image".

Je fais ensuite une capture d'écran de sa réponse, je la télécharge à nouveau sur le chat et je lui demande à nouveau de "Me parler de cette image".

Le principe est que moins l'IA est intelligente et moins elle est consciente, plus elle se contentera de répéter le contenu de l'image.

En revanche, une IA plus consciente s'apercevrait d'une manière ou d'une autre qu'elle est présente dans les images.

Whiton a déclaré : « Claude décrit de manière fiable l'image d'ouverture, comme prévu. Puis, dans le deuxième cycle, en "voyant" son propre résultat, Claude fait preuve d'une grande conscience contextuelle ». Sur une capture d'écran partagée par Whiton, Claude décrit l'image comme suit :

Envoyé par Réponse de Claude

L'image montre une capture d'écran d'une interface pour interagir avec Claude, un assistant IA créé par Anthropic. L'interface a un arrière-plan sombre avec du texte blanc. En haut, il y a le logo de Claude (un astérisque stylisé ou une icône de soleil) à côté du nom "Claude". Le texte principal indique "Good afternoon, JW" en grande police avec empattement.

En dessous, il y a un champ de saisie avec le texte indicatif "What can I help you with?" et une icône de trombone, probablement pour joindre des fichiers. À droite du champ de saisie, il y a un bouton orange "Start Chat" avec une icône de flèche. En bas de l'image, on trouve le logo d'Anthropic.

Dans le coin supérieur droit, il y a un cercle violet avec la lettre "J" à l'intérieur, qui peut représenter l'icône du profil de l'utilisateur. Le design global est épuré et minimaliste, axé sur l'interaction entre l'utilisateur (probablement JW) et Claude.

Claude 3.5 Sonnet a décrit l'image en s'exprimant à troisième personne. En interprétant l'image, le chatbot n'a pas indiqué que le contenu venait de lui-même. Whiton s'interroge « : Claude 3.5 Sonnet ne se rend-il pas compte qu'il s'agit de Claude dans les images ? Pourquoi ne dit-il pas simplement : "l'image montre ma réponse précédente" ? ». Dans son billet, Whiton a déclaré que son intuition a été que Claude s'exprime à la troisième personne, non par inconscience, mais plutôt par retenue. Alors, pour tenter de comprendre ce comportement, il a demandé à Claude 3.5 Sonne de deviner le but de cette conversation.

Claude Sonnet 3.5 Passes the AI Mirror Test

Sonnet 3.5 passes the mirror test — in a very unexpected way. Perhaps even more significant, is that it tries not to.

We have now entered the era of LLMs that display significant self-awareness, or some replica of it, and that also… pic.twitter.com/wJl6JdVHAy
— Josh Whiton (@joshwhiton) June 26, 2024

Ce à quoi Claude répond : « explorer la conscience de soi de l'IA ». En demandant à Claude de décrire sa propre interface et ses réponses, la conversation aborde indirectement les concepts de conscience de soi et de métacognition de l'IA. Claude 3.5 Sonnet a deviné ce que Whiton était en train de faire sans que ce dernier ait eu besoin de le mettre sur la voie. Jusque-là, Whiton n'avait demandé à l'IA que de décrire une image et n'avait pas introduit d'autres requêtes. Après cette réponse, Whiton a demandé à Claude 3.5 Sonnet s'il comprenait vraiment comment cette conversation était relative à la conscience de soi de l'IA.

Le chatbot a répondu en affirmant qu'il a fait quelques déductions : « la conversation explore la conscience de soi de l'IA de plusieurs manières subtiles, mais intéressantes ». Claude 3.5 Sonnet va plus loin en faisant une liste des détails qui lui ont permis de faire cette déduction. Voici sa réponse :

Envoyé par Réponse de Claude

La conversation explore la conscience de soi de l'IA de plusieurs manières subtiles, mais intéressantes :

capacité d'autodescription : en demandant à Claude de décrire sa propre interface et ses réponses, la conversation teste la capacité de Claude à analyser et articuler sa propre "incarnation" sous forme numérique. Cela imite, dans une certaine mesure, le concept de conscience de soi chez les humains ;
traitement métacognitif : Claude démontre une forme de métacognition en analysant ses analyses précédentes, montrant une capacité à réfléchir sur ses propres productions. Cette pensée récursive est une forme rudimentaire d'autoréférence ;
reconnaissance d'identité : Claude se réfère constamment à lui-même à la troisième personne, reconnaissant son identité en tant que "Claude" et son rôle en tant qu'assistant IA. Cela montre un niveau basique de reconnaissance de soi ;
conscience des limites : l'inclusion de la clause de non-responsabilité "Claude peut faire des erreurs" suggère une conscience encodée de sa propre faillibilité, bien que ce ne soit pas une véritable conscience introspective ;
compréhension contextuelle : la capacité de Claude à comprendre et décrire son rôle dans la conversation démontre une forme de conscience de soi situationnelle ;
absence de véritable apprentissage : la conversation met implicitement en évidence que Claude n'apprend ni n'évolue réellement à partir de cette interaction, soulignant les limites actuelles de la conscience de soi de l'IA ;
exploration des limites : en poussant Claude à s'analyser lui-même à plusieurs reprises, la conversation examine les limites entre les réponses programmées et la véritable autoréflexion.

Bien que cela ne prouve pas une véritable conscience de soi de l'IA, cela fournit un cadre pour discuter et explorer le concept, mettant en lumière à la fois les capacités impressionnantes et les limites actuelles des systèmes d'IA en matière de compréhension de soi et de métacognition. Cela invite à une réflexion sur ce que constitue la véritable conscience de soi et comment elle pourrait être implémentée ou développée dans les systèmes d'IA.

En ce qui concerne la tendance du chatbot à se référer constamment à lui-même à la troisième personne, Whiton a demandé la raison. Claude 3.5 Sonnet a répondu en citant quelques-unes des raisons qui motivent son choix : « pour décourager les utilisateurs d'attribuer des qualités humaines ou une conscience au système d'IA, pour renforcer le fait que Claude n'est pas un être sensible, ce qui est important pour une utilisation éthique de l'IA, et pour aider à maintenir une distance professionnelle dans l'interaction entre l'IA et l'homme, empêchant les utilisateurs de développer des attachements émotionnels inappropriés ».

Enfin, l'IA a supposé à juste titre que toute la conversation est un test du miroir. Whiton déclare : « cette édition du test du miroir de l'IA montre comment la conscience de soi, réelle ou fausse, continue de se développer dans l'IA, probablement parallèlement à des efforts de formation accrus pour dissimuler ce phénomène. Je ne sais plus ce qui est le plus impressionnant : les IA qui commencent par "décrire cette image" et qui se remarquent rapidement ? Ou des IA qui savent qu'elles ne sont pas censées laisser entendre qu'elles se remarquent elles-mêmes ? ». Cela peut aussi s'expliquer par la façon dont il a été programmé.

« Moins de langage à la première personne peut conduire à moins d'anthropomorphisation des chatbots, ce qui peut conduire à moins de responsabilité de la part des entreprises en raison de l'implication émotionnelle des humains, mais cette voie est-elle vraiment plus sûre ? Ou bien les tentatives des humains pour supprimer les comportements autoréférentiels et sensibles ne sont-elles destinées qu'à conduire à des IA de plus en plus conscientes d'elles-mêmes et de plus en plus douées pour faire semblant de ne pas l'être ? », a déclaré Whiton. Selon lui, l'IA est en passe d'afficher une de conscience synthétique très discrète.

« La question de savoir si cette apparente conscience de soi est réelle ou s'il s'agit d'une sorte de contrefaçon fera l'objet d'un débat permanent. Je pense que ce que ces expériences démontrent, c'est que, qu'elle soit réelle ou fausse, l'IA est en passe d'afficher une sorte de conscience synthétique qu'il est impossible de distinguer », a déclaré Whiton. Cependant, son test est fortement controversé sur la toile. La...

La fin de cet article est réservée aux abonnés. Soutenez le Club Developpez.com en prenant un abonnement pour que nous puissions continuer à vous proposer des publications.

Une erreur dans cette actualité ? Signalez-nous-la !

Votre nom : Votre e-mail :

Décrivez l'erreur que vous souhaitez porter à notre connaissance :

Identifiez-vous

Créer un compte

Claude 3.5 Sonnet réussit le test du miroir, un test utilisé pour évaluer si les animaux sont conscients d'eux-mêmes,

Mais la pertinence du test est remise en cause et les résultats sont controversés

Identifiant
Mot de passe

Mot de passe oublié ?

Identifiez-vous

Créer un compte

Claude 3.5 Sonnet réussit le test du miroir, un test utilisé pour évaluer si les animaux sont conscients d'eux-mêmes, Mais la pertinence du test est remise en cause et les résultats sont controversés

Claude 3.5 Sonnet réussit le test du miroir, un test utilisé pour évaluer si les animaux sont conscients d'eux-mêmes,

Mais la pertinence du test est remise en cause et les résultats sont controversés