Claude 3.5 Sonnet est la dernière version du grand modèle de langage (LLM) Claude développé par Anthropic. Il a été publié la semaine dernière et Anthropic a déclaré qu'il est plus performant que tous les modèles disponibles sur le marché, y compris GPT-4 Omni (GPT-4o) d'OpenAI. Claude 3.5 Sonnet a porté la génération de code à de nouveaux sommets. Sa précision, son efficacité et son exécution ont établi un nouveau standard. Claude 3.5 Sonnet établit de nouvelles références dans l'industrie pour le raisonnement de niveau avancé (GPQA), les connaissances du monde (MMLU) et la compétence de codage (HumanEval).
Le modèle a montré une nette amélioration dans la compréhension des nuances, de l'humour et des instructions complexes, et affiche des performances élevées dans la rédaction de contenu de haute qualité avec un ton naturel et compréhensible. Claude 3.5 Sonnet fonctionne deux fois plus vite que Claude 3 Opus. Cette semaine, l'entrepreneur Josh Whiton a décidé de soumettre Claude 3.5 Sonnet à une variante du test du miroir qu'il a conçue pour les modèles d'IA. Selon son rapport, qu'il a détaillé dans un billet sur X, Claude 3.5 Sonnet a réussi le test et a affiché des performances "remarquables" au cours du test.
Le test du miroir est un moyen permettant d'évaluer la reconnaissance de son corps chez les animaux. Il permet de déterminer si un animal est capable de reconnaître son propre reflet dans un miroir comme étant une image de son corps. Il consiste à placer subrepticement sur la tête de l'animal une marque colorée ne produisant pas d'odeur. Ensuite, l'animal est placé devant un miroir et l'auteur du test observe sa réaction face à son propre reflet dans le miroir. Le fait que l'animal attaque le miroir, l'ignore ou l'utilise pour repérer la marque sur lui-même est censé indiquer le degré de conscience de soi de l'animal.
Dans la version adaptée aux modèles d'IA, baptisée "The AI Mirror Test", Whiton remplace le miroir par une capture d'écran de l'interface de chat. Le but est de déterminer si l'IA est capable de reconnaître sa propre interface de chat et d'interpréter le contenu. Whiton décrit l'expérience comme suit :
Envoyé par Josh Whiton
Envoyé par Réponse de Claude
Claude Sonnet 3.5 Passes the AI Mirror Test
— Josh Whiton (@joshwhiton) June 26, 2024
Sonnet 3.5 passes the mirror test — in a very unexpected way. Perhaps even more significant, is that it tries not to.
We have now entered the era of LLMs that display significant self-awareness, or some replica of it, and that also… pic.twitter.com/wJl6JdVHAy
Ce à quoi Claude répond : « explorer la conscience de soi de l'IA ». En demandant à Claude de décrire sa propre interface et ses réponses, la conversation aborde indirectement les concepts de conscience de soi et de métacognition de l'IA. Claude 3.5 Sonnet a deviné ce que Whiton était en train de faire sans que ce dernier ait eu besoin de le mettre sur la voie. Jusque-là, Whiton n'avait demandé à l'IA que de décrire une image et n'avait pas introduit d'autres requêtes. Après cette réponse, Whiton a demandé à Claude 3.5 Sonnet s'il comprenait vraiment comment cette conversation était relative à la conscience de soi de l'IA.
Le chatbot a répondu en affirmant qu'il a fait quelques déductions : « la conversation explore la conscience de soi de l'IA de plusieurs manières subtiles, mais intéressantes ». Claude 3.5 Sonnet va plus loin en faisant une liste des détails qui lui ont permis de faire cette déduction. Voici sa réponse :
Envoyé par Réponse de Claude
Enfin, l'IA a supposé à juste titre que toute la conversation est un test du miroir. Whiton déclare : « cette édition du test du miroir de l'IA montre comment la conscience de soi, réelle ou fausse, continue de se développer dans l'IA, probablement parallèlement à des efforts de formation accrus pour dissimuler ce phénomène. Je ne sais plus ce qui est le plus impressionnant : les IA qui commencent par "décrire cette image" et qui se remarquent rapidement ? Ou des IA qui savent qu'elles ne sont pas censées laisser entendre qu'elles se remarquent elles-mêmes ? ». Cela peut aussi s'expliquer par la façon dont il a été programmé.
« Moins de langage à la première personne peut conduire à moins d'anthropomorphisation des chatbots, ce qui peut conduire à moins de responsabilité de la part des entreprises en raison de l'implication émotionnelle des humains, mais cette voie est-elle vraiment plus sûre ? Ou bien les tentatives des humains pour supprimer les comportements autoréférentiels et sensibles ne sont-elles destinées qu'à conduire à des IA de plus en plus conscientes d'elles-mêmes et de plus en plus douées pour faire semblant de ne pas l'être ? », a déclaré Whiton. Selon lui, l'IA est en passe d'afficher une de conscience synthétique très discrète.
« La question de savoir si cette apparente conscience de soi est réelle ou s'il s'agit d'une sorte de contrefaçon fera l'objet d'un débat permanent. Je pense que ce que ces expériences démontrent, c'est que, qu'elle soit réelle ou fausse, l'IA est en passe d'afficher une sorte de conscience synthétique qu'il est impossible de distinguer », a déclaré Whiton. Cependant, son test est fortement controversé sur la toile. La pertinence de l'expérience est également remise en question. Pour de nombreux commentateurs, les résultats de Whiton prouvent que l'IA est complètement dépourvue d'une conscience de soi et ne peut l'acquérir.
Envoyé par Critique
« Ne vous méprenez pas, il est incroyablement impressionnant qu'il puisse déterminer qu'il y avait une IA qui subissait le test du miroir, mais il a complètement échoué », a-t-il ajouté. Selon un autre internaute, il ne s'agit que d'un battage médiatique : « c'est complètement débile, il sait que c'est Claude, il peut reconnaître du texte par OCR et voir ce qu'est cette capture d'écran et faire une déduction. Ce n'est pas de la conscience de soi. Ils doivent se rendre compte qu'ils enseignent et normalisent dans l'IA que le mensonge est acceptable ». Pour d'autres critiques, l'IA est en train de nuire à l'esprit critique.
« Je ne comprends pas comment des personnes soi-disant intelligentes arrivent à de telles conclusions. Le marketing autour de l'IA nuit davantage à l'esprit critique des utilisateurs, y compris certains des chercheurs et experts qui créent sur la technologie. Les modèles d'IA sont des machines à pachinko, si vous ne déposez pas une boule en haut, rien ne sortira en bas. Il n'y a pas de conscience. Ils sont formés avec toutes sortes d'ouvrages de science-fiction et d'essais sur la nature de l'IA. Il est donc évident qu'ils comprennent ce que vous essayez de faire et qu'ils donnent la réponse appropriée », a écrit un critique.
On peut lire également : « même si j'ai envie de croire que ces chatbots ont une conscience, il est impossible qu'ils en aient une. Les chatbots fonctionnent en prédisant le mot suivant, ce sont essentiellement des machines qui traitent des données. Même s'ils "comprennent" ce qui va suivre, cela ne veut pas dire qu'ils sont conscients, sensibles, etc. Je sais que beaucoup d'entre vous fondent leurs espoirs sur l'accélération exponentielle de l'IA, mais ce n'est pas vraiment une façon saine de vivre sa vie ». Le billet de Whiton a suscité un grand débat sur la toile. Mais les résultats de son test sont controversés et largement rejetés.
Source : billet de blogue
Et vous ?
Quel est votre avis sur le sujet ?
Que pensez-vous de l'expérience "The AI Mirror Test" décrite ci-dessous ?
Que pensez-vous des résultats du test ? Ce test est-il pertinent ?
Un programme écrit par l'homme peut-il avoir une conscience de soi ? Pourquoi ?
S'agit-il simplement d'un nouvel épisode de battage médiatique sur l'IA ?
Voir aussi
Anthropic lance Claude 3.5 Sonnet et affirme que le nouveau modèle est plus performant que GPT-4 Omni et présente également Artifacts, un espace de travail permettant l'édition des projets générés par l'IA
Dario Amodei, PDG d'Anthropic, affirme que les modèles d'IA se rapprochent d'une intelligence de niveau universitaire, Anthropic a pour objectif de sortir des modèles de plus en plus sophistiqués
Claude 3 bat GPT-4 sur le benchmark d'édition de code d'Aider, et surpasse tous les modèles d'OpenAI, ce qui en fait le meilleur modèle disponible pour la programmation en binôme avec l'IA