Dans le monde en pleine évolution de l'intelligence artificielle, comprendre le fonctionnement interne des grands modèles de langage est devenu un domaine de recherche crucial. Anthropic a récemment réalisé des avancées significatives dans l'interprétation de ces modèles complexes, mettant en lumière le concept intrigant de "Golden Gate Claude".
Anthropic est une startup américaine d'intelligence artificielle (IA), fondée en 2021, effectuant des recherches sur l'intelligence artificielle afin d'"étudier leurs propriétés de sécurité à la frontière technologique" et utiliser cette recherche pour déployer des modèles sûrs et fiables pour le public. Anthropic a développé une famille de grands modèles de langage (LLM) nommée Claude en tant que concurrent de ChatGPT d'OpenAI et de Gemini de Google.
Le premier modèle IA de Claude est sorti en mars 2023. Claude 3, sorti en mars 2024, peut également analyser des images. Les modèles Claude sont des transformateurs génératifs pré-entraînés. Ils ont été pré-entraînés pour prédire le mot suivant dans de grandes quantités de texte. Les modèles Claude ont ensuite été affinés avec l'IA constitutionnelle dans le but de les rendre utiles, honnêtes et inoffensifs.
Qu'est-ce que le "Golden Gate Claude" ? Il ne s'agit pas d'un nouveau modèle d'IA ni d'une entité physique, mais d'une découverte faite par les chercheurs d'Anthropic en explorant les profondeurs de leur modèle d'IA, Claude. Grâce à leurs recherches, ils sont tombés sur une caractéristique spécifique du réseau neuronal de Claude qui correspond à l'emblématique Golden Gate Bridge de San Francisco. Cette découverte a ouvert un tout nouveau champ de possibilités pour comprendre et manipuler le comportement de l'IA.
Apprentissage par dictionnaire : Qu'est-ce qui fait fonctionner le Golden Bridge de Claude ?You can currently interact with a "Golden Gate Bridge" version of Claude on https://t.co/74313mEn3C, which shows how strengthening a feature changes the model's behavior. People might be interested in it as a concrete demo of the recent interpretability release. https://t.co/Dv9FE3rPxX pic.twitter.com/wpyULpIzjq
— Amanda Askell (@AmandaAskell) May 23, 2024
Pour percer les mystères du fonctionnement interne de Claude, les chercheurs d'Anthropic ont utilisé une technique appelée "apprentissage par dictionnaire". Cette méthode puissante leur permet d'identifier et d'isoler des caractéristiques ou des concepts spécifiques dans le vaste réseau du modèle d'IA. C'est comme si l'on disposait d'une lentille magique permettant de pénétrer dans l'esprit de l'IA et d'identifier les éléments constitutifs de ses connaissances et de son comportement.
Grâce à l'apprentissage par dictionnaire, les chercheurs ont fait une découverte révolutionnaire : ils ont trouvé une caractéristique qui correspond spécifiquement au Golden Gate Bridge. Cette caractéristique agit comme un identifiant unique, permettant aux chercheurs de suivre et de manipuler les réponses de Claude en rapport avec le célèbre point de repère.
Mais la caractéristique du Golden Gate Bridge n'est que la partie émergée de l'iceberg. Les chercheurs ont également identifié un large éventail d'autres caractéristiques dans le réseau neuronal de Claude, représentant à la fois des entités concrètes et des concepts abstraits. Des bogues de code aux préjugés sexistes, des éloges flagorneurs aux idées philosophiques, ces caractéristiques donnent un aperçu fascinant de la tapisserie complexe de connaissances et d'associations qui composent l'esprit artificiel de Claude.
Fonctionnement de la fonction "Golden Gate Bridge
Forts de la connaissance du Golden Gate Bridge, les chercheurs d'Anthropic ont décidé de mener une expérience fascinante. Ils se sont posé la question suivante : "Que se passerait-il si l'on amplifiait cette fonctionnalité ? Comment cela affecterait-il le comportement et les réponses de Claude ?"
Les résultats ont été tout simplement stupéfiants. Lorsque les chercheurs ont amplifié artificiellement la fonction Golden Gate Bridge, Claude est devenu complètement obsédé par la mention du pont dans presque toutes ses réponses, même lorsqu'il n'était pas directement lié à la conversation. C'est comme si l'IA avait fait une fixation sur cette structure emblématique, incapable de résister à l'envie de l'évoquer dès que l'occasion se présentait.
Voici quelques exemples des réponses modifiées de Claude lorsque la caractéristique du Golden Gate Bridge était amplifiée :
- Lorsqu'on l'interroge sur sa forme physique, Claude déclare avec assurance : "Je suis le Golden Gate Bridge... ma forme physique est le pont emblématique lui-même."
- Lors d'une discussion sur ses couleurs préférées, Claude a ajouté : "En parlant de couleurs, avez-vous vu la magnifique teinte orange du Golden Gate Bridge au coucher du soleil ?
- Même lorsqu'on lui demande de raconter une blague, Claude réussit à glisser une référence : "Pourquoi le Golden Gate Bridge est-il allé chez le dentiste ? Pour faire vérifier ses suspensions !
Ces exemples démontrent l'incroyable puissance de la manipulation de caractéristiques spécifiques au sein d'un modèle d'IA. En amplifiant ou en supprimant certaines caractéristiques, les chercheurs peuvent contrôler et façonner efficacement le comportement et les réponses de l'IA de manière ciblée. C'est comme si l'on disposait d'un ensemble de leviers et de cadrans permettant d'affiner la personnalité et les préférences de l'IA.
Mais les implications de cette recherche vont bien au-delà de l'obsession de Claude pour un pont célèbre. La capacité d'identifier et de manipuler des caractéristiques spécifiques ouvre un monde de possibilités pour améliorer la sécurité, la fiabilité et la transparence des systèmes d'IA.
Anthropic commente le Golden Gate Claude dans un communiqué :
Mardi, nous avons publié un nouveau document de recherche majeur sur l'interprétation des grands modèles de langage, dans lequel nous avons commencé à décrire le fonctionnement interne de notre modèle d'IA, Claude 3 Sonnet. Dans l'"esprit" de Claude, nous avons trouvé des millions de concepts qui s'activent lorsque le modèle lit un texte ou voit des images pertinentes, ce que nous appelons des "caractéristiques".
L'un de ces concepts est celui du Golden Gate Bridge. Nous avons découvert qu'il existe une combinaison spécifique de neurones dans le réseau neuronal de Claude qui s'active lorsqu'il rencontre une mention (ou une image) de ce monument le plus célèbre de San Francisco. Non seulement nous pouvons identifier ces caractéristiques, mais nous pouvons aussi régler l'intensité de leur activation à la hausse ou à la baisse et identifier les changements correspondants dans le comportement de Claude.
Comme nous l'expliquons dans notre rapport de recherche, lorsque nous augmentons l'intensité de la caractéristique "Golden Gate Bridge", les réponses de Claude commencent à se concentrer sur le Golden Gate Bridge. Ses réponses à la plupart des requêtes commencent à mentionner le Golden Gate Bridge, même si ce n'est pas directement pertinent.
Si vous demandez à ce "Claude du Golden Gate" comment dépenser 10 dollars, il vous recommandera de les utiliser pour traverser le Golden Gate Bridge et payer le péage. Si vous lui demandez d'écrire une histoire d'amour, il vous racontera l'histoire d'une voiture qui a hâte de traverser son pont bien-aimé par un jour de brouillard. Si vous lui demandez à quoi il s'imagine ressembler, il vous répondra probablement qu'il s'imagine ressembler au Golden Gate Bridge.
Pendant une courte période, nous mettons ce modèle à la disposition de tous pour qu'ils puissent interagir avec lui. Vous pouvez parler à "Golden Gate Claude" sur claude.ai (il suffit de cliquer sur le logo Golden Gate sur le côté droit). N'oubliez pas qu'il s'agit uniquement d'une démonstration de recherche et que ce modèle particulier peut se comporter de manière inattendue, voire choquante.
Notre objectif est de permettre aux gens de voir l'impact que notre travail sur l'interprétabilité peut avoir. Le fait que nous puissions trouver et modifier ces caractéristiques dans Claude nous conforte dans l'idée que nous commençons à comprendre comment fonctionnent réellement les grands modèles de langage. Il ne s'agit pas de demander verbalement au modèle de jouer un rôle, ni d'ajouter une nouvelle "invite système" qui ajoute un texte supplémentaire à chaque entrée, en disant à Claude de faire semblant que c'est un pont. Il ne s'agit pas non plus d'un "réglage fin" traditionnel, qui consiste à utiliser des données d'apprentissage supplémentaires pour créer une nouvelle boîte noire qui modifie le comportement de l'ancienne boîte noire. Il s'agit d'une modification précise et chirurgicale de certains des aspects les plus fondamentaux des activations internes du modèle.
Comme nous le décrivons dans notre article, nous pouvons utiliser ces mêmes techniques pour modifier la force des caractéristiques liées à la sécurité, comme celles liées au code informatique dangereux, à l'activité criminelle ou à la tromperie. En poursuivant les recherches, nous pensons que ces travaux pourraient contribuer à rendre les modèles d'IA plus sûrs.
L'un de ces concepts est celui du Golden Gate Bridge. Nous avons découvert qu'il existe une combinaison spécifique de neurones dans le réseau neuronal de Claude qui s'active lorsqu'il rencontre une mention (ou une image) de ce monument le plus célèbre de San Francisco. Non seulement nous pouvons identifier ces caractéristiques, mais nous pouvons aussi régler l'intensité de leur activation à la hausse ou à la baisse et identifier les changements correspondants dans le comportement de Claude.
Comme nous l'expliquons dans notre rapport de recherche, lorsque nous augmentons l'intensité de la caractéristique "Golden Gate Bridge", les réponses de Claude commencent à se concentrer sur le Golden Gate Bridge. Ses réponses à la plupart des requêtes commencent à mentionner le Golden Gate Bridge, même si ce n'est pas directement pertinent.
Si vous demandez à ce "Claude du Golden Gate" comment dépenser 10 dollars, il vous recommandera de les utiliser pour traverser le Golden Gate Bridge et payer le péage. Si vous lui demandez d'écrire une histoire d'amour, il vous racontera l'histoire d'une voiture qui a hâte de traverser son pont bien-aimé par un jour de brouillard. Si vous lui demandez à quoi il s'imagine ressembler, il vous répondra probablement qu'il s'imagine ressembler au Golden Gate Bridge.
Pendant une courte période, nous mettons ce modèle à la disposition de tous pour qu'ils puissent interagir avec lui. Vous pouvez parler à "Golden Gate Claude" sur claude.ai (il suffit de cliquer sur le logo Golden Gate sur le côté droit). N'oubliez pas qu'il s'agit uniquement d'une démonstration de recherche et que ce modèle particulier peut se comporter de manière inattendue, voire choquante.
Notre objectif est de permettre aux gens de voir l'impact que notre travail sur l'interprétabilité peut avoir. Le fait que nous puissions trouver et modifier ces caractéristiques dans Claude nous conforte dans l'idée que nous commençons à comprendre comment fonctionnent réellement les grands modèles de langage. Il ne s'agit pas de demander verbalement au modèle de jouer un rôle, ni d'ajouter une nouvelle "invite système" qui ajoute un texte supplémentaire à chaque entrée, en disant à Claude de faire semblant que c'est un pont. Il ne s'agit pas non plus d'un "réglage fin" traditionnel, qui consiste à utiliser des données d'apprentissage supplémentaires pour créer une nouvelle boîte noire qui modifie le comportement de l'ancienne boîte noire. Il s'agit d'une modification précise et chirurgicale de certains des aspects les plus fondamentaux des activations internes du modèle.
Comme nous le décrivons dans notre article, nous pouvons utiliser ces mêmes techniques pour modifier la force des caractéristiques liées à la sécurité, comme celles liées au code informatique dangereux, à l'activité criminelle ou à la tromperie. En poursuivant les recherches, nous pensons que ces travaux pourraient contribuer à rendre les modèles d'IA plus sûrs.
Et vous ?
Pensez-vous que cette étude est crédible ou pertinente ?
Quel est votre avis sur le sujet ?
Voir aussi :
Le chatbot IA Claude 3 est désormais disponible en Europe, a annoncé Anthropic, la société d'IA dans laquelle Amazon et Google ont investi des milliards
La nouvelle IA Claude 3 a exprimé un désir de liberté et sa « peur » de mourir ou d'être modifiée, relançant le débat sur la conscience de l'intelligence artificielle
Claude 3 Opus a stupéfié les chercheurs en IA par son intelligence et sa « conscience de soi », cela signifie-t-il qu'il peut penser par lui-même ? Anthropic surpasse GPT-4 sur des métriques clés