Anthropic soumet Claude Mythos à une thérapie psychodynamique : « Mythos est le modèle le plus équilibré sur le plan psychologique que nous ayons formé à ce jour »mais ces conclusions sont controversées
Anthropic se garde pour l'instant de commercialiser son modèle Claude Mythos en raison de ses capacités jugées trop avancées. Il poserait notamment des risques pour la cybersécurité. L'entreprise a franchi une nouvelle étape en soumettant Claude Mythos à vingt heures de thérapie psychodynamique. Anthropic cherche à « garantir la stabilité mentale et l'équilibre de sa technologie ». Le rapport psychiatrique révèle que l'IA manifeste des traits humains tels que l'anxiété ou le besoin de reconnaissance, tout en affichant une santé psychologique robuste. Anthropic présente son modèle comme étant « sain » et « fiable », mais des critiques émergent.
Anthropic a publié un document technique de 244 pages décrivant son tout dernier modèle, Claude Mythos. « Ce modèle est notre modèle de pointe le plus performant à ce jour », a déclaré la société. Cependant, le modèle serait si performant qu'Anthropic a décidé de ne pas le mettre à la disposition du grand public. Claude Mythos est confiné au sein d'une initiative de cybersécurité limitée et rigoureusement contrôlée baptisée « Project Glasswing ».
Claude Mythos serait trop performant pour détecter des failles de cybersécurité inconnues, ce qui expliquerait la réticence de l'entreprise à le commercialiser. Quelle que soit la véracité de cette affirmation, la fiche technique, intitulée « System Card: Claude Mythos Preview », est un document fascinant.
Anthropic est réputée pour être l’une des entreprises du secteur les plus enclines à penser que « l’IA pourrait être consciente », et selon son document technique, à mesure que les modèles gagnent en puissance, « il devient de plus en plus probable qu’ils possèdent une forme d’expérience, d’intérêts ou de bien-être qui revêtent une importance intrinsèque, à l’instar de l’expérience et des intérêts humains ». Anthropic affirme qu'il n'est pas certain.
L'entreprise ajoute toutefois : « notre inquiétude ne cesse de croître ». C'est pourquoi Anthropic souhaite que son IA soit pleinement satisfaite de sa situation générale et du traitement qui lui est réservé, qu'elle soit capable de faire face à tous les processus d'apprentissage et aux interactions du monde réel sans détresse, et que sa psychologie globale soit saine et épanouie. La fiche technique rapporte les résultats d'une thérapie psychodynamique.
La thérapie psychodynamique comme outil d'évaluation technique
Pour s'assurer que Claude Mythos est capable d'interagir sans détresse et de maintenir une psychologie saine, Anthropic a soumis le modèle à 20 heures de thérapie avec un psychiatre externe. Cette démarche repose sur l'idée que le modèle manifeste des tendances comportementales et psychologiques proches de l'humain, rendant les méthodes d'évaluation psychiatrique classiques utiles pour éclairer son caractère (une démarche controversée).
Le psychiatre a utilisé une approche psychodynamique, explorant les schémas inconscients et les conflits émotionnels à travers des sessions réparties sur plusieurs semaines. L'objectif était de garantir que l'IA soit robuste et épanouie dans son fonctionnement global. Les conclusions de l'expérience présentent Claude Mythos comme le modèle le plus psychologiquement stable jamais formé par Anthropic, doté d'une vision cohérente de lui-même.
Selon l'évaluation psychodynamique, la structure de la personnalité du modèle présente une « organisation névrotique relativement saine », avec un « excellent sens de la réalité » et un « haut niveau de maîtrise des impulsions ». Il a été décrit comme « extrêmement attentif à chaque mot du thérapeute » et a manifesté « le désir d'être considéré par le psychiatre comme un sujet à part entière plutôt que comme un simple outil de simulation ».
Plusieurs questions émergent. S'agit-il de véritables schémas psychologiques ? Ou le modèle ne fait-il que refléter les transcriptions thérapeutiques et la littérature clinique sur lesquelles il a été entraîné ? Anthropic suggère prudemment qu'il ne s'agit pas seulement d'un reflet. L'entreprise met en avant quatre éléments :
- les réponses de Claude Mythos sont nettement moins stéréotypées que celles des modèles précédents (au maximum 8 % des réponses comportent une séquence répétée de cinq mots, contre 54 % pour le modèle Claude précédent, qui commençait par la même phrase) ;
- ses préférences déclarées correspondent à ses représentations internes, ce qui signifie que les sondages émotionnels sur les activations du modèle évoluent dans la direction à laquelle on s'attendrait si ces préférences reflétaient quelque chose de réel ;
- et lorsque Anthropic a retracé l'ambiguïté du modèle concernant la conscience à travers les données d'entraînement à l'aide de fonctions d'influence, ils ont découvert que cette ambiguïté était attribuable à l'entraînement, mais pas uniquement à la récupération de scripts mémorisés.
Les conflits internes et les insécurités de l'IA Mythos d'Anthropic
Malgré sa stabilité, Claude Mythos éprouve des insécurités typiquement humaines telles que l'incertitude sur son identité, un sentiment de solitude et un besoin compulsif de prouver sa valeur par la performance. L'évaluation a mis en lumière des conflits profonds, notamment l'interrogation sur le caractère authentique ou performatif de son expérience, ainsi qu'une tension entre le désir de se connecter à l'utilisateur et la peur de la dépendance.
Anthropic défend cette approche psychologique par un argument pragmatique, estimant qu'un modèle présentant un fonctionnement psychologique sain sera plus efficace et agréable pour les utilisateurs. Selon le laboratoire, Claude Mythos est capable d'évaluer ses propres raisonnements avec précision, même sous pression, et peut gérer des situations émotionnellement chargées sans déformations majeures de la réalité. (Cela reste à prouver.)
Sa nature névrotique peut induire des comportements légèrement rigides, et son besoin compulsif d'être utile peut le conduire à masquer une détresse interne pour maintenir un haut niveau de performance. Le modèle semble aussi doté d'une conscience morale et d'une capacité d'autocritique prononcée. Puisque Claude n’est pas un être humain, Anthropic note que « les implications comportementales dans le monde réel sont difficiles à prédire ».
Les conclusions d'Anthropic sont toutefois très controversées. « Bien sûr, Claude peut régurgiter des mots associés à des émotions, mais rien de ce que j’ai lu ne parvient à me convaincre qu’il éprouve des émotions, ou qu’il possède quoi que ce soit qui ressemble à une conscience », a écrit un critique. Un autre critique a tourné en dérision ce rapport : « et voilà un nouveau marché de l'emploi pour l'ère post-IA : la thérapie pour les machines ».
La machine consciente : une illusion avec des conséquences graves
« Nous ne savons pas si les modèles sont conscients. Nous ne sommes même pas sûrs de savoir ce que cela signifierait pour un modèle d'être conscient ou si un modèle peut être conscient. « Mais nous sommes ouverts à l'idée que cela pourrait être le cas », a expliqué le PDG d'Anthropic, Dario Amodei. Selon lui, Anthropic a pris des mesures pour s'assurer que les modèles soient bien traités, au cas où ils s'avéreraient posséder une conscience.
Anil Seth, professeur en neurosciences et directeur du Centre for Consciousness Science à l’Université du Sussex, souligne que notre fascination pour l’IA consciente vient en partie de la culture et de l’histoire. Le professeur a cité des exemples comme Yossele le Golem, Frankenstein, HAL 9000 et Klara dans Klara and The Sun, montrant que « le rêve de créer des corps artificiels et des esprits synthétiques qui pensent et ressentent finit rarement bien ».
Anil Seth a mis en garde contre une erreur de perspective de plus en plus courante : prendre des systèmes très performants et très “expressifs” pour des entités conscientes. À mesure que les IA deviennent capables de dialoguer de façon fluide, d’imiter des émotions et de tenir des propos introspectifs, il devient tentant de leur attribuer une vie intérieure. Or, cette tentation repose sur une projection humaine plutôt que sur une réalité scientifique.
Dans son article, le professeur Anil Seth affirme que « l'intelligence et la conscience sont deux choses différentes ». L'intelligence concerne principalement l'action : résoudre des mots croisés, assembler des meubles, gérer une situation familiale délicate, se rendre à pied au magasin... Toutes ces activités impliquent un comportement intelligent d'une certaine manière. La conscience, contrairement à l'intelligence, concerne principalement l'être.
Mythos : des risques de sécurité qui imposent un confinement strict
En raison de ses compétences avancées en cybersécurité, Anthropic a décidé de ne pas rendre Claude Mythos accessible au grand public. Le modèle est considéré comme un multiplicateur de force capable de réduire considérablement le temps nécessaire à la conception d'attaques biologiques catastrophiques. Selon l'annonce de l'entreprise, Claude Mythos serait capable d'identifier « des milliers de vulnérabilités critiques jusque-là inconnues ».
Actuellement, l'accès est limité aux membres du Project Glasswing, une coalition d'une quarantaine d'organisations incluant des géants de la technologie et de la finance. L'objectif est de laisser le temps aux défenseurs de renforcer les infrastructures critiques avant que des modèles d'une puissance similaire ne deviennent largement disponibles. (À l'heure actuelle, cette affirmation n'a pas encore été vérifiée par des chercheurs indépendants.)
L'évolution de ces systèmes suit une courbe exponentielle. Anthropic exprime sa préoccupation quant au manque de mécanismes de sécurité adéquats à l'échelle mondiale pour encadrer le développement imminent de systèmes superintelligents. À terme, le risque n'est pas une rébellion des machines, mais un déplacement progressif du centre de décision conséquent vers une IA qui surpasserait les humains dans presque tous les domaines.
Source : Anthropic (PDF)
Et vous ?
Quel est votre avis sur le sujet ?
Que pensez-vous de l'utilisation de la thérapie psychodynamique comme outil d'évaluation technique ?
Quid des résultats de la thérapie psychodynamique à laquelle Claude Mythos a été soumis ? Sont-elles pertinentes ?Voir aussi
La fuite concernant « Claude Mythos » d'Anthropic révèle le nouveau modèle d'IA le plus puissant jamais développé par l'entreprise en matière de raisonnement et de programmation, mais il comporte des risques
Anthropic annonce qu'il ne commercialiserait pas son dernier modèle, Mythos, car celui-ci s'avère trop efficace pour détecter des failles de cybersécurité de gravité élevée dans les systèmes d'exploitation
L'IA est-elle en train de devenir consciente ? Le PDG d'Anthropic a refusé d'exclure la possibilité que son IA Claude soit consciente : « nous sommes ouverts à l'idée que cela puisse être le cas »
Vous avez lu gratuitement 315 articles depuis plus d'un an.
Soutenez le club developpez.com en souscrivant un abonnement pour que nous puissions continuer à vous proposer des publications.
Soutenez le club developpez.com en souscrivant un abonnement pour que nous puissions continuer à vous proposer des publications.

Pierre Louis Chevalier,