Qu'est-ce que le "Golden Bridge Claude" ? Découvrez les secrets de l'IA révélés par la recherche d'Anthropic sur le "Golden Gate Claude".Dans le monde en pleine évolution de l'intelligence artificielle, comprendre le fonctionnement interne des grands modèles de langage est devenu un domaine de recherche crucial. Anthropic a récemment réalisé des avancées significatives dans l'interprétation de ces modèles complexes, mettant en lumière le concept intrigant de "Golden Gate Claude".
Anthropic est une startup américaine d'intelligence artificielle (IA), fondée en 2021, effectuant des recherches sur l'intelligence artificielle afin d'"étudier leurs propriétés de sécurité à la frontière technologique" et utiliser cette recherche pour déployer des modèles sûrs et fiables pour le public. Anthropic a développé une famille de grands modèles de langage (LLM) nommée Claude en tant que concurrent de ChatGPT d'OpenAI et de Gemini de Google.
Le premier modèle IA de Claude est sorti en mars 2023. Claude 3, sorti en mars 2024, peut également analyser des images. Les modèles Claude sont des transformateurs génératifs pré-entraînés. Ils ont été pré-entraînés pour prédire le mot suivant dans de grandes quantités de texte. Les modèles Claude ont ensuite été affinés avec l'IA constitutionnelle dans le but de les rendre utiles, honnêtes et inoffensifs.
Qu'est-ce que le "Golden Gate Claude" ? Il ne s'agit pas d'un nouveau modèle d'IA ni d'une entité physique, mais d'une découverte faite par les chercheurs d'Anthropic en explorant les profondeurs de leur modèle d'IA, Claude. Grâce à leurs recherches, ils sont tombés sur une caractéristique spécifique du réseau neuronal de Claude qui correspond à l'emblématique Golden Gate Bridge de San Francisco. Cette découverte a ouvert un tout nouveau champ de possibilités pour comprendre et manipuler le comportement de l'IA.
[TWITTER]<blockquote class="twitter-tweet"><p lang="en" dir="ltr">You can currently interact with a "Golden Gate Bridge" version of Claude on <a href="https://t.co/74313mEn3C">https://t.co/74313mEn3C</a>, which shows how strengthening a feature changes the model's behavior. People might be interested in it as a concrete demo of the recent interpretability release. <a href="https://t.co/Dv9FE3rPxX">https://t.co/Dv9FE3rPxX</a> <a href="https://t.co/wpyULpIzjq">pic.twitter.com/wpyULpIzjq</a></p>— Amanda Askell (@AmandaAskell) <a href="https://twitter.com/AmandaAskell/status/1793750192124264519?ref_src=twsrc%5Etfw">May 23, 2024</a></blockquote> <script async src="https://platform.twitter.com/widgets.js" charset="utf-8"></script>[/TWITTER]
Apprentissage par dictionnaire : Qu'est-ce qui fait fonctionner le Golden Bridge de Claude ?
Pour percer les mystères du fonctionnement interne de Claude, les chercheurs d'Anthropic ont utilisé une technique appelée "apprentissage par dictionnaire". Cette méthode puissante leur permet d'identifier et d'isoler des caractéristiques ou des concepts spécifiques dans le vaste réseau du modèle d'IA. C'est comme si l'on disposait d'une lentille magique permettant de pénétrer dans l'esprit de l'IA et d'identifier les éléments constitutifs de ses connaissances et de son comportement.
Grâce à l'apprentissage par dictionnaire, les chercheurs ont fait une découverte révolutionnaire : ils ont trouvé une caractéristique qui correspond spécifiquement au Golden Gate Bridge. Cette caractéristique agit comme un identifiant unique, permettant aux chercheurs de suivre et de manipuler les réponses de Claude en rapport avec le célèbre point de repère.
Mais la caractéristique du Golden Gate Bridge n'est que la partie émergée de l'iceberg. Les chercheurs ont également identifié un large éventail d'autres caractéristiques dans le réseau neuronal de Claude, représentant à la fois des entités concrètes et des concepts abstraits. Des bogues de code aux préjugés sexistes, des éloges flagorneurs aux idées philosophiques, ces caractéristiques donnent un aperçu fascinant de la tapisserie complexe de connaissances et d'associations qui composent l'esprit artificiel de Claude.
Fonctionnement de la fonction "Golden Gate Bridge
Forts de la connaissance du Golden Gate Bridge, les chercheurs d'Anthropic ont décidé de mener une expérience fascinante. Ils se sont posé la question suivante : "Que se passerait-il si l'on amplifiait cette fonctionnalité ? Comment cela affecterait-il le comportement et les réponses de Claude ?"
Les résultats ont été tout simplement stupéfiants. Lorsque les chercheurs ont amplifié artificiellement la fonction Golden Gate Bridge...
La fin de cet article est réservée aux abonnés. Soutenez le Club Developpez.com en prenant un abonnement pour que nous puissions continuer à vous proposer des publications.
