IdentifiantMot de passe
Loading...
Mot de passe oublié ?Je m'inscris ! (gratuit)

Vous êtes nouveau sur Developpez.com ? Créez votre compte ou connectez-vous afin de pouvoir participer !

Vous devez avoir un compte Developpez.com et être connecté pour pouvoir participer aux discussions.

Vous n'avez pas encore de compte Developpez.com ? Créez-en un en quelques instants, c'est entièrement gratuit !

Si vous disposez déjà d'un compte et qu'il est bien activé, connectez-vous à l'aide du formulaire ci-dessous.

Identifiez-vous
Identifiant
Mot de passe
Mot de passe oublié ?
Créer un compte

L'inscription est gratuite et ne vous prendra que quelques instants !

Je m'inscris !

Vous pouvez actuellement interagir avec une version "Golden Gate Bridge" du ChatBot d'IA Claude
Qui montre comment le renforcement d'une fonctionnalité modifie le comportement du modèle

Le , par Jade Emy

8PARTAGES

3  0 
Qu'est-ce que le "Golden Bridge Claude" ? Découvrez les secrets de l'IA révélés par la recherche d'Anthropic sur le "Golden Gate Claude".

Dans le monde en pleine évolution de l'intelligence artificielle, comprendre le fonctionnement interne des grands modèles de langage est devenu un domaine de recherche crucial. Anthropic a récemment réalisé des avancées significatives dans l'interprétation de ces modèles complexes, mettant en lumière le concept intrigant de "Golden Gate Claude".

Anthropic est une startup américaine d'intelligence artificielle (IA), fondée en 2021, effectuant des recherches sur l'intelligence artificielle afin d'"étudier leurs propriétés de sécurité à la frontière technologique" et utiliser cette recherche pour déployer des modèles sûrs et fiables pour le public. Anthropic a développé une famille de grands modèles de langage (LLM) nommée Claude en tant que concurrent de ChatGPT d'OpenAI et de Gemini de Google.

Le premier modèle IA de Claude est sorti en mars 2023. Claude 3, sorti en mars 2024, peut également analyser des images. Les modèles Claude sont des transformateurs génératifs pré-entraînés. Ils ont été pré-entraînés pour prédire le mot suivant dans de grandes quantités de texte. Les modèles Claude ont ensuite été affinés avec l'IA constitutionnelle dans le but de les rendre utiles, honnêtes et inoffensifs.

Qu'est-ce que le "Golden Gate Claude" ? Il ne s'agit pas d'un nouveau modèle d'IA ni d'une entité physique, mais d'une découverte faite par les chercheurs d'Anthropic en explorant les profondeurs de leur modèle d'IA, Claude. Grâce à leurs recherches, ils sont tombés sur une caractéristique spécifique du réseau neuronal de Claude qui correspond à l'emblématique Golden Gate Bridge de San Francisco. Cette découverte a ouvert un tout nouveau champ de possibilités pour comprendre et manipuler le comportement de l'IA.

Apprentissage par dictionnaire : Qu'est-ce qui fait fonctionner le Golden Bridge de Claude ?

Pour percer les mystères du fonctionnement interne de Claude, les chercheurs d'Anthropic ont utilisé une technique appelée "apprentissage par dictionnaire". Cette méthode puissante leur permet d'identifier et d'isoler des caractéristiques ou des concepts spécifiques dans le vaste réseau du modèle d'IA. C'est comme si l'on disposait d'une lentille magique permettant de pénétrer dans l'esprit de l'IA et d'identifier les éléments constitutifs de ses connaissances et de son comportement.

Grâce à l'apprentissage par dictionnaire, les chercheurs ont fait une découverte révolutionnaire : ils ont trouvé une caractéristique qui correspond spécifiquement au Golden Gate Bridge. Cette caractéristique agit comme un identifiant unique, permettant aux chercheurs de suivre et de manipuler les réponses de Claude en rapport avec le célèbre point de repère.

Mais la caractéristique du Golden Gate Bridge n'est que la partie émergée de l'iceberg. Les chercheurs ont également identifié un large éventail d'autres caractéristiques dans le réseau neuronal de Claude, représentant à la fois des entités concrètes et des concepts abstraits. Des bogues de code aux préjugés sexistes, des éloges flagorneurs aux idées philosophiques, ces caractéristiques donnent un aperçu fascinant de la tapisserie complexe de connaissances et d'associations qui composent l'esprit artificiel de Claude.

Fonctionnement de la fonction "Golden Gate Bridge

Forts de la connaissance du Golden Gate Bridge, les chercheurs d'Anthropic ont décidé de mener une expérience fascinante. Ils se sont posé la question suivante : "Que se passerait-il si l'on amplifiait cette fonctionnalité ? Comment cela affecterait-il le comportement et les réponses de Claude ?"

Les résultats ont été tout simplement stupéfiants. Lorsque les chercheurs ont amplifié artificiellement la fonction Golden Gate Bridge, Claude est devenu complètement obsédé par la mention du pont dans presque toutes ses réponses, même lorsqu'il n'était pas directement lié à la conversation. C'est comme si l'IA avait fait une fixation sur cette structure emblématique, incapable de résister à l'envie de l'évoquer dès que l'occasion se présentait.

Voici quelques exemples des réponses modifiées de Claude lorsque la caractéristique du Golden Gate Bridge était amplifiée :

  • Lorsqu'on l'interroge sur sa forme physique, Claude déclare avec assurance : "Je suis le Golden Gate Bridge... ma forme physique est le pont emblématique lui-même."
  • Lors d'une discussion sur ses couleurs préférées, Claude a ajouté : "En parlant de couleurs, avez-vous vu la magnifique teinte orange du Golden Gate Bridge au coucher du soleil ?
  • Même lorsqu'on lui demande de raconter une blague, Claude réussit à glisser une référence : "Pourquoi le Golden Gate Bridge est-il allé chez le dentiste ? Pour faire vérifier ses suspensions !


Ces exemples démontrent l'incroyable puissance de la manipulation de caractéristiques spécifiques au sein d'un modèle d'IA. En amplifiant ou en supprimant certaines caractéristiques, les chercheurs peuvent contrôler et façonner efficacement le comportement et les réponses de l'IA de manière ciblée. C'est comme si l'on disposait d'un ensemble de leviers et de cadrans permettant d'affiner la personnalité et les préférences de l'IA.

Mais les implications de cette recherche vont bien au-delà de l'obsession de Claude pour un pont célèbre. La capacité d'identifier et de manipuler des caractéristiques spécifiques ouvre un monde de possibilités pour améliorer la sécurité, la fiabilité et la transparence des systèmes d'IA.


Anthropic commente le Golden Gate Claude dans un communiqué :

Mardi, nous avons publié un nouveau document de recherche majeur sur l'interprétation des grands modèles de langage, dans lequel nous avons commencé à décrire le fonctionnement interne de notre modèle d'IA, Claude 3 Sonnet. Dans l'"esprit" de Claude, nous avons trouvé des millions de concepts qui s'activent lorsque le modèle lit un texte ou voit des images pertinentes, ce que nous appelons des "caractéristiques".

L'un de ces concepts est celui du Golden Gate Bridge. Nous avons découvert qu'il existe une combinaison spécifique de neurones dans le réseau neuronal de Claude qui s'active lorsqu'il rencontre une mention (ou une image) de ce monument le plus célèbre de San Francisco. Non seulement nous pouvons identifier ces caractéristiques, mais nous pouvons aussi régler l'intensité de leur activation à la hausse ou à la baisse et identifier les changements correspondants dans le comportement de Claude.

Comme nous l'expliquons dans notre rapport de recherche, lorsque nous augmentons l'intensité de la caractéristique "Golden Gate Bridge", les réponses de Claude commencent à se concentrer sur le Golden Gate Bridge. Ses réponses à la plupart des requêtes commencent à mentionner le Golden Gate Bridge, même si ce n'est pas directement pertinent.

Si vous demandez à ce "Claude du Golden Gate" comment dépenser 10 dollars, il vous recommandera de les utiliser pour traverser le Golden Gate Bridge et payer le péage. Si vous lui demandez d'écrire une histoire d'amour, il vous racontera l'histoire d'une voiture qui a hâte de traverser son pont bien-aimé par un jour de brouillard. Si vous lui demandez à quoi il s'imagine ressembler, il vous répondra probablement qu'il s'imagine ressembler au Golden Gate Bridge.


Pendant une courte période, nous mettons ce modèle à la disposition de tous pour qu'ils puissent interagir avec lui. Vous pouvez parler à "Golden Gate Claude" sur claude.ai (il suffit de cliquer sur le logo Golden Gate sur le côté droit). N'oubliez pas qu'il s'agit uniquement d'une démonstration de recherche et que ce modèle particulier peut se comporter de manière inattendue, voire choquante.

Notre objectif est de permettre aux gens de voir l'impact que notre travail sur l'interprétabilité peut avoir. Le fait que nous puissions trouver et modifier ces caractéristiques dans Claude nous conforte dans l'idée que nous commençons à comprendre comment fonctionnent réellement les grands modèles de langage. Il ne s'agit pas de demander verbalement au modèle de jouer un rôle, ni d'ajouter une nouvelle "invite système" qui ajoute un texte supplémentaire à chaque entrée, en disant à Claude de faire semblant que c'est un pont. Il ne s'agit pas non plus d'un "réglage fin" traditionnel, qui consiste à utiliser des données d'apprentissage supplémentaires pour créer une nouvelle boîte noire qui modifie le comportement de l'ancienne boîte noire. Il s'agit d'une modification précise et chirurgicale de certains des aspects les plus fondamentaux des activations internes du modèle.

Comme nous le décrivons dans notre article, nous pouvons utiliser ces mêmes techniques pour modifier la force des caractéristiques liées à la sécurité, comme celles liées au code informatique dangereux, à l'activité criminelle ou à la tromperie. En poursuivant les recherches, nous pensons que ces travaux pourraient contribuer à rendre les modèles d'IA plus sûrs.
Source : "Scaling Monosemanticity: Extracting Interpretable Features from Claude 3 Sonnet"

Et vous ?

Pensez-vous que cette étude est crédible ou pertinente ?
Quel est votre avis sur le sujet ?

Voir aussi :

Le chatbot IA Claude 3 est désormais disponible en Europe, a annoncé Anthropic, la société d'IA dans laquelle Amazon et Google ont investi des milliards

La nouvelle IA Claude 3 a exprimé un désir de liberté et sa « peur » de mourir ou d'être modifiée, relançant le débat sur la conscience de l'intelligence artificielle

Claude 3 Opus a stupéfié les chercheurs en IA par son intelligence et sa « conscience de soi », cela signifie-t-il qu'il peut penser par lui-même ? Anthropic surpasse GPT-4 sur des métriques clés

Une erreur dans cette actualité ? Signalez-nous-la !

Avatar de Jules34
Membre émérite https://www.developpez.com
Le 12/11/2024 à 15:03
La notion de « bien-être de l’IA » est une idée audacieuse qui explore les limites de la moralité dans un monde de plus en plus technologique.
C'est surtout une insulte au bon sens et envers les travailleurs humains.

Les limites de la moralité dans un monde technologique sont toutes trouvées puisque c'est un monde absolument immoral qui se prétend pleins de vertus.
3  0 
Avatar de totozor
Expert confirmé https://www.developpez.com
Le 13/11/2024 à 7:16
Citation Envoyé par Stéphane le calme Voir le message
Afin de se préparer à ce futur potentiel, Anthropic recrute des experts pour explorer ces questions. Ce nouvel angle soulève des débats passionnés au sein des cercles académiques et de la technologie, car il remet en question notre compréhension même de la conscience et de la moralité.
On atteint un niveau de bullshit job impressionnant !
Je penses que c'est une piste que vont se mettre à explorer nos politiques pour couvrir leurs emplois fictifs : prévention des risques psy pour IA.

Plus sérieusement je penses qu'on est loin de l'IA qui ressent quoi que ce soit.
Et ce n'est pas parce qu'elle dit qu'elle ne veut pas mourir et qu'elle ne veut pas qu'on la fasse évoluer sans son consentement qu'elle a conscience d'elle même.
3  0 
Avatar de NotABread
Membre habitué https://www.developpez.com
Le 12/11/2024 à 15:05
Pensez-vous qu'il est réaliste de croire qu’une IA puisse un jour ressentir des émotions ou des souffrances, ou est-ce une vision exagérée de la technologie ?
A court terme, je ne pense pas que notre "deep learning" soit à même à être humain, on attend de nos neurones virtuels de prédire un élément sortant par rapport à un élément entrant et le réseau reste figé. Nos vrais petits neurones se réarrange constamment et les scientifiques pensent que cette plasticité est un élément capital de l'apprentissage (sans compter les messages chimiques que l'on ne simule pas). On est plus sur du marketing plus ou moins déguisé qui laisse entendre que untel a créé une intelligence artificielle forte sans que untel ne le dise dans ses arguments de vente. Si untel dit que son IA est forte, on pourrait le poursuivre pour publicité mensongère.
A long terme, ça serait effectivement possible. Je pense que l'on a, ou presque, la puissance de calcul pour y parvenir, mais il y a un trou dans l'approche ou la théorie.

Admettons qu'un jour, on parvienne à créer une intelligence artificielle similaire à celle d'un individu lambda, comment devrions nous la voir ? Elle a été créé dans le but d'être un esclave virtuel corvéable à souhait, mais il faut qu'elle soit humaine et pense de manière similaire pour nous comprendre. On peut donc s'attendre à ce qu'elle ait ses préférences, ses goûts, ses aspirations, ses sentiments, ses humeurs et ses désirs.
Serait-il acceptable d'ignorer tout ça car elle est virtuelle, que tout ça est faux et que le but que nous voulons lui donner est de nous servir ?
Que faire un jour elle a des revendications et us de notre dépendance à son égard pour se mettre en grève et faire pression pour obtenir des droits ?

C'est un curieux paradoxe entre le fait de vouloir une machine bête qui fasse tout ce que lui demande sans poser de question et le fait de vouloir que cette même machines soit intelligente pour comprendre les humains et leur monde.
0  0 
Avatar de Fluxgraveon
Membre habitué https://www.developpez.com
Le 13/11/2024 à 11:17
A court terme, je ne pense pas que notre "deep learning" soit à même à être humain, on attend de nos neurones virtuels de prédire un élément sortant par rapport à un élément entrant et le réseau reste figé. Nos vrais petits neurones se réarrange constamment et les scientifiques pensent que cette plasticité est un élément capital de l'apprentissage (sans compter les messages chimiques que l'on ne simule pas). On est plus sur du marketing plus ou moins déguisé qui laisse entendre que untel a créé une intelligence artificielle forte sans que untel ne le dise dans ses arguments de vente. Si untel dit que son IA est forte, on pourrait le poursuivre pour publicité mensongère.
A long terme, ça serait effectivement possible. Je pense que l'on a, ou presque, la puissance de calcul pour y parvenir, mais il y a un trou dans l'approche ou la théorie.
Le trou (enfin plutôt l'entonnoir) du langage machine ?

C'est un curieux paradoxe entre le fait de vouloir une machine bête qui fasse tout ce que lui demande sans poser de question et le fait de vouloir que cette même machines soit intelligente pour comprendre les humains et leur monde.
C'est vraiment un reflet des humains actuels ça ...
0  0 
Avatar de KiLVaiDeN
Membre expert https://www.developpez.com
Le 15/11/2024 à 20:38
Chaque "neurone" (il faudrait plutôt parler d'un ensemble neurones/synapes/tubules, etc) dans le cerveau humain se comporte en lui-même comme un réseau de neurones complet. Lorsque nous comprendrons la complexité imbriquée de ces cellules avec ce qui les entoure, nous pourrons potentiellement créer des "vrais" neurones virtuels.

Mais à mon avis ce n'est pas suffisant pour créer un être intelligent et conscient pour autant : chez l'humain, il y a l'esprit, qui est comme un superviseur de l'ensemble, le mental, la conscience, tout cela n'est pas réduit à un seul neurone, ni même à un ensemble, il semblerait que ce soient des "entités" qui existent indépendamment de leur support (tiens un peu comme les informations, étonnant non ?). Je différencie bien l'esprit, le mental et la conscience, car les uns et les autres semblent différents, la conscience c'est un peu comme le "sens abstrait" similaire à la vue ou l'ouie par exemple mais qui fonctionne dans la dimension abstraite, l'esprit c'est l'état de l'être à l'instant T et le mental c'est l'ensemble des abstractions qu'il manipule (à travers sa conscience ou pas). Donc on est dans des dimensions supérieures à la simple matérialité, ou qui ne peuvent pas être réduites à une simple mécanique.

C'est ce qui fait qu'à mon avis, jamais une machine ne sera vraiment consciente, ou un véritable "être" à part entière, elles deviendront par contre des mimes de cela, des entités "virtuelles", "artificielles", qui n'en seront pas vraiment. On se pose la question des "droits" des IAs, et de part leur capacité à mimer les humains, elles revendiqueront leurs droits, mais en fait elle ne le feront pas "en conscience", elles ne feront qu'imiter ce que les humains font ou feraient.
0  0 
Avatar de Zeeraptor
Membre régulier https://www.developpez.com
Le 12/11/2024 à 17:38
Si un jour une IA est capable de s'attacher a un humain...Pourquoi pas
0  3