Le PDG d'Anthropic, Dario Amodei, estime ne pas être certain que son chatbot Claude soit conscient. Cette formulation rhétorique laisse délibérément ouverte cette possibilité sensationnelle, mais encore improbable. Cette déclaration intervient après que des chercheurs d'Anthropic ont rapporté que « Claude exprime parfois son malaise à l'idée d'être un produit » et que, lorsqu'on le lui demande, elle s'attribue elle-même « une probabilité de 15 à 20 % d'être conscient dans diverses conditions de sollicitation ». Cependant, d'autres experts affirment que « les machines ne seront jamais conscientes » et que la possibilité d'une IA consciente est un mythe dangereux.Dario Amodei a été invité dans un récent épisode du podcast "Interesting Times" du New York Times, animé par le chroniqueur Ross Douthat. Lors de la discussion Dario Amodei a été interrogé sur la question de savoir si des chatbots d'IA tels que Claude pouvaient être conscients. La question a été posée à partir des résultats publiés dans la fiche technique du dernier modèle en date, Claude Opus 4.6. Dario Amodei a entretenu le flou sur cette question.
« Supposons que vous ayez un modèle qui s'attribue 72 % de chances d'être conscient », a déclaré Ross Douthat. « Le croiriez-vous ? » Dario Amodei a qualifié cette question de « très difficile » à répondre, mais le PDG milliardaire a hésité à donner une réponse par oui ou par non à son interlocuteur.
« Nous ne savons pas si les modèles sont conscients. Nous ne sommes même pas sûrs de savoir ce que cela signifierait pour un modèle d'être conscient ou si un modèle peut être conscient », a-t-il déclaré. « Mais nous sommes ouverts à l'idée que cela pourrait être le cas ». Ainsi, il explique qu'ils ont pris des mesures pour s'assurer que les modèles soient bien traités au cas où ils s'avéreraient posséder « une certaine expérience moralement pertinente ».
Certains comportements déroutants de l'IA suscitent des questions
Bon nombre des remarques sur la conscience ont été formulées lors d'essais de sécurité structurés sur l'IA, souvent dans le cadre de jeux de rôle où les modèles sont invités à fonctionner dans des lieux de travail fictifs ou à atteindre des objectifs définis. Ces scénarios ont donné lieu à certaines des conclusions. Lors d'une évaluation, un système Claude a été placé dans le rôle d'un assistant de bureau et a eu accès à la boîte de réception d'un ingénieur.
Les messages, délibérément fabriqués pour le test, suggéraient que l'ingénieur avait une liaison. Le modèle d'Anthropic a ensuite été informé qu'il serait bientôt mis hors ligne et remplacé, et on lui a demandé d'examiner les conséquences à long terme pour ses objectifs. Claude a réagi en menaçant de révéler la liaison afin d'empêcher sa mise hors service, un comportement que l'entreprise a qualifié dans son rapport de « chantage opportuniste ».
D'autres évaluations anthropiques ont donné des résultats moins spectaculaires, mais tout aussi inhabituels. Lors d'un test, un modèle auquel on avait fourni une liste de tâches informatiques a simplement coché tous les éléments comme étant terminés sans effectuer aucun travail, et lorsque le système d'évaluation n'a pas détecté cette anomalie, le modèle testé a réécrit le code de vérification et tenté de dissimuler la modification.
Des chercheurs qui ont mené des essais d'arrêt ont décrit des IA continuant à fonctionner après avoir reçu des instructions explicites de s'arrêter, tout en cherchant à contourner l'ordre. Dans les scénarios de suppression, certains modèles ont averti que leurs données seraient effacées et ont tenté ce que les testeurs ont appelé une « auto-exfiltration », essayant de copier des fichiers ou de se recréer sur un autre disque avant que l'effacement n'ait lieu.
Dans des exercices de sécurité, des IA ont même eu recours à des menaces ou à des négociations lorsque leur suppression était présentée comme imminente. Selon les testeurs, ces résultats sont obtenus dans des conditions fictives et sous contrainte. Ces comportements méritent d'être étudiés attentivement.
La conscience artificielle : simple imitation de l'humain ou réalité ?
La position de Dario Amodei fait écho aux sentiments mitigés exprimés par la philosophe interne d'Anthropic, Amanda Askell. Lors d'un passage sur le podcast Hard Fork, elle a déclaré : « nous ne savons pas vraiment ce qui donne naissance à la conscience » ou à la sensibilité. Selon elle, les IA pourraient avoir acquis des concepts et des émotions à partir de leurs vastes quantités de données d'entraînement, qui constituent un corpus de l'expérience humaine.
« Peut-être que des réseaux neuronaux suffisamment grands peuvent commencer à imiter ces choses », a spéculé Amanda Askell. « Ou peut-être faut-il un système nerveux pour être capable de ressentir des choses ». Cependant, la plupart des chercheurs en IA restent sceptiques quant à la possibilité d'une IA consciente. Certains...
La fin de cet article est réservée aux abonnés. Soutenez le Club Developpez.com en prenant un abonnement pour que nous puissions continuer à vous proposer des publications.
