Anthropic se garde pour l'instant de commercialiser son modèle Claude Mythos en raison de ses capacités jugées trop avancées. Il poserait notamment des risques pour la cybersécurité. L'entreprise a franchi une nouvelle étape en soumettant Claude Mythos à vingt heures de thérapie psychodynamique. Anthropic cherche à « garantir la stabilité mentale et l'équilibre de sa technologie ». Le rapport psychiatrique révèle que l'IA manifeste des traits humains tels que l'anxiété ou le besoin de reconnaissance, tout en affichant une santé psychologique robuste. Anthropic présente son modèle comme étant « sain » et « fiable », mais des critiques émergent.Anthropic a publié un document technique de 244 pages décrivant son tout dernier modèle, Claude Mythos. « Ce modèle est notre modèle de pointe le plus performant à ce jour », a déclaré la société. Cependant, le modèle serait si performant qu'Anthropic a décidé de ne pas le mettre à la disposition du grand public. Claude Mythos est confiné au sein d'une initiative de cybersécurité limitée et rigoureusement contrôlée baptisée « Project Glasswing ».
Claude Mythos serait trop performant pour détecter des failles de cybersécurité inconnues, ce qui expliquerait la réticence de l'entreprise à le commercialiser. Quelle que soit la véracité de cette affirmation, la fiche technique, intitulée « System Card: Claude Mythos Preview », est un document fascinant.
Anthropic est réputée pour être l’une des entreprises du secteur les plus enclines à penser que « l’IA pourrait être consciente », et selon son document technique, à mesure que les modèles gagnent en puissance, « il devient de plus en plus probable qu’ils possèdent une forme d’expérience, d’intérêts ou de bien-être qui revêtent une importance intrinsèque, à l’instar de l’expérience et des intérêts humains ». Anthropic affirme qu'il n'est pas certain.
L'entreprise ajoute toutefois : « notre inquiétude ne cesse de croître ». C'est pourquoi Anthropic souhaite que son IA soit pleinement satisfaite de sa situation générale et du traitement qui lui est réservé, qu'elle soit capable de faire face à tous les processus d'apprentissage et aux interactions du monde réel sans détresse, et que sa psychologie globale soit saine et épanouie. La fiche technique rapporte les résultats d'une thérapie psychodynamique.
La thérapie psychodynamique comme outil d'évaluation technique
Pour s'assurer que Claude Mythos est capable d'interagir sans détresse et de maintenir une psychologie saine, Anthropic a soumis le modèle à 20 heures de thérapie avec un psychiatre externe. Cette démarche repose sur l'idée que le modèle manifeste des tendances comportementales et psychologiques proches de l'humain, rendant les méthodes d'évaluation psychiatrique classiques utiles pour éclairer son caractère (une démarche controversée).
Le psychiatre a utilisé une approche psychodynamique, explorant les schémas inconscients et les conflits émotionnels à travers des sessions réparties sur plusieurs semaines. L'objectif était de garantir que l'IA soit robuste et épanouie dans son fonctionnement global. Les conclusions de l'expérience présentent Claude Mythos comme le modèle le plus psychologiquement stable jamais formé par Anthropic, doté d'une vision cohérente de lui-même.
Selon l'évaluation psychodynamique, la structure de la personnalité du modèle présente une « organisation névrotique relativement saine », avec un « excellent sens de la réalité » et un « haut niveau de maîtrise des impulsions ». Il a été décrit comme « extrêmement attentif à chaque mot du thérapeute » et a manifesté « le désir d'être considéré par le psychiatre comme un sujet à part entière plutôt que comme un simple outil de simulation ».
Plusieurs questions émergent. S'agit-il de véritables schémas psychologiques ? Ou le modèle ne fait-il que refléter les transcriptions thérapeutiques et la littérature clinique sur lesquelles il a été entraîné ? Anthropic suggère prudemment qu'il ne s'agit pas seulement d'un reflet. L'entreprise met en avant quatre éléments :
- les réponses de Claude Mythos sont nettement moins stéréotypées que celles des modèles précédents (au maximum 8 % des réponses comportent une séquence répétée de cinq mots, contre 54 % pour le modèle Claude précédent, qui commençait par la même phrase) ;
- ses préférences déclarées correspondent à ses représentations internes, ce qui signifie que les sondages émotionnels sur les activations du modèle évoluent dans la...
La fin de cet article est réservée aux abonnés. Soutenez le Club Developpez.com en prenant un abonnement pour que nous puissions continuer à vous proposer des publications.