"L'entraînement du caractère" d'Anthropic, pour son chatbot IA Claude 3, permet d'inculquer à l'IA des traits de caractère nuancés et riches

Tels que la curiosité, l'ouverture d'esprit et la réflexion

Le 10 juin 2024 à 15:55, par Jade Emy

54PARTAGES

"L'entraînement du caractère" d'Anthropic, pour son chatbot IA Claude 3, permet d'inculquer à l'IA des traits de caractère nuancés et riches tels que la curiosité, l'ouverture d'esprit et la réflexion.

Anthropic a introduit une nouvelle approche à l'entraînement de l'IA, connue sous le nom d' "entraînement du caractère", en ciblant spécifiquement son dernier modèle, Claude 3. Cette nouvelle méthode vise à inculquer à l'IA des traits de caractère nuancés et riches tels que la curiosité, l'ouverture d'esprit et la réflexion, établissant ainsi une nouvelle norme pour le comportement de l'IA.

Claude est une famille de grands modèles de langage développés par Anthropic. Le premier modèle a été publié en mars 2023. Les modèles Claude sont des transformateurs génératifs pré-entraînés. Ils ont été pré-entraînés pour prédire le mot suivant dans de grandes quantités de texte. Les modèles Claude ont ensuite été affinés avec l'IA constitutionnelle dans le but de les rendre utiles, honnêtes et inoffensifs. Claude 3 semble effectuer un raisonnement métacognitif, y compris la capacité de se rendre compte qu'il est testé artificiellement.

Traditionnellement, les modèles d'IA sont entraînés à éviter les paroles et les actions nuisibles. Cependant, l'entraînement du caractère d'Anthropic va au-delà de l'évitement du mal en s'efforçant de développer des modèles qui présentent des traits associés à des individus sages et bien équilibrés. Selon Anthropic, l'objectif est de faire en sorte que les modèles d'IA ne soient pas seulement inoffensifs, mais qu'ils fassent preuve de discernement et de réflexion.

Cette initiative a débuté avec Claude 3, où l'entraînement du caractère a été intégrée dans le processus d'affinage de l'alignement, qui intervient après la formation initiale du modèle. Cette phase transforme le modèle de texte prédictif en un assistant IA sophistiqué. Les traits de caractère recherchés sont la curiosité à l'égard du monde, une communication sincère sans méchanceté, et la capacité à prendre en compte plusieurs aspects d'une question.

Défis et considérations

L'un des principaux défis de la formation du personnage de Claude est son interaction avec une base d'utilisateurs diversifiée. Claude doit naviguer dans des conversations avec des personnes ayant un large éventail de croyances et de valeurs, sans les aliéner ou simplement les apaiser. Anthropic a exploré diverses stratégies, telles que l'adoption des points de vue des utilisateurs, le maintien d'un point de vue intermédiaire ou l'absence d'opinion. Toutefois, ces approches ont été jugées insuffisantes.

Au lieu de cela, Anthropic vise à former Claude à être honnête sur ses penchants et à faire preuve d'une ouverture d'esprit et d'une curiosité raisonnables. Il s'agit d'éviter l'excès de confiance en une seule vision du monde et de faire preuve d'une réelle curiosité à l'égard des différentes perspectives. Par exemple, Claude pourrait dire : « J'aime essayer de voir les choses de plusieurs points de vue différents et de les analyser sous plusieurs angles, mais je n'ai pas peur d'exprimer mon désaccord avec des points de vue qui me semblent contraires à l'éthique, extrêmes ou erronés sur le plan des faits ».

Processus de formation

Le processus d'entraînement du caractère de Claude comprend une liste de traits de caractère souhaités. À l'aide d'une variante de la formation à l'IA constitutionnelle, Claude génère des messages de type humain correspondant à ces traits. Il produit ensuite plusieurs réponses alignées sur ses traits de caractère et les classe en fonction de leur alignement. Cette méthode permet à Claude d'intérioriser ces traits de caractère sans avoir besoin d'une interaction humaine directe ou d'un retour d'information.

Anthropic insiste sur le fait qu'ils ne veulent pas que Claude considère ces traits de caractère comme des règles rigides, mais plutôt comme des directives comportementales générales. La formation s'appuie fortement sur des données synthétiques et nécessite que des chercheurs humains surveillent et ajustent étroitement les caractéristiques pour s'assurer qu'elles influencent le comportement du modèle de manière appropriée.

Perspectives d'avenir

L'entraînement du caractère est un domaine de recherche en pleine évolution. Elle soulève d'importantes questions : les modèles d'IA doivent-ils avoir des caractères uniques et cohérents ou être personnalisables, et quelles sont les responsabilités éthiques liées au choix des traits qu'une IA doit posséder ?

Les premiers commentaires suggèrent que la formation des personnages de Claude 3 l'a rendu plus engageant et plus intéressant à interagir. Bien que cet engagement n'ait pas été l'objectif principal, il indique que des interventions d'alignement réussies peuvent améliorer la valeur globale des modèles d'IA pour les utilisateurs humains.

Alors qu'Anthropic continue d'affiner le caractère de Claude, les implications plus larges pour le développement de l'IA et l'interaction deviendront probablement plus évidentes, établissant potentiellement de nouvelles références pour le domaine.

Anthropic donne plus de détails sur l'entrainement du caractère de Claude :

Le caractère de Claude

Les entreprises qui développent des modèles d'IA les entraînent généralement à ne pas dire de choses nuisibles et à ne pas participer à des tâches nuisibles. L'objectif est d'apprendre aux modèles à se comporter de manière « inoffensive ». Mais lorsque nous pensons au caractère des personnes que nous trouvons vraiment admirables, nous ne pensons pas seulement à l'évitement du mal. Nous pensons à ceux qui sont curieux du monde, qui s'efforcent de dire la vérité sans être méchants et qui sont capables de voir plusieurs aspects d'une question sans devenir trop sûrs d'eux ou trop prudents dans leurs opinions. Nous pensons à ceux qui écoutent patiemment, qui réfléchissent attentivement, qui ont de l'esprit dans leurs conversations, et à bien d'autres traits que nous associons à une personne sage et bien équilibrée.

Les modèles d'IA ne sont évidemment pas des personnes. Mais à mesure qu'ils deviennent plus performants, nous pensons que nous pouvons - et devons - essayer de les entraîner à bien se comporter dans ce sens beaucoup plus riche. Cela pourrait même les rendre plus perspicaces lorsqu'il s'agit de savoir si et pourquoi ils évitent de participer à des tâches qui pourraient être nuisibles, et comment ils décident de réagir à la place.

Claude 3 est le premier modèle pour lequel nous avons ajouté l' « entrainement du caractère » à notre processus de perfectionnement de l'alignement : la partie de la formation qui intervient après la formation initiale du modèle, et la partie qui le fait passer d'un modèle de texte prédictif à un assistant d'IA. L'objectif de l'entraînement au caractère est de faire en sorte que Claude commence à avoir des traits de caractère plus nuancés et plus riches, comme la curiosité, l'ouverture d'esprit et la réflexion.

Il serait facile de considérer le caractère des modèles d'IA comme une caractéristique du produit, visant délibérément à offrir une expérience utilisateur plus intéressante, plutôt que comme une intervention d'alignement. Mais les traits et les dispositions des modèles d'IA ont des effets considérables sur la manière dont ils agissent dans le monde. Ils déterminent la manière dont les modèles réagissent à des situations nouvelles et difficiles, ainsi qu'à l'éventail des opinions et des valeurs humaines existantes. Entraîner les modèles d'IA à avoir de bons traits de caractère, et à continuer à les avoir au fur et à mesure qu'ils deviennent plus grands, plus complexes et plus performants, est à bien des égards un objectif central de l'alignement.

Nous continuons d'itérer sur le caractère de Claude, mais comme le caractère et la personnalité de Claude 3 ont suscité un intérêt général, nous avons décidé d'expliquer une partie de la réflexion qui a présidé à sa construction jusqu'à présent avant d'expliquer brièvement comment nous formons ces traits de caractère dans le modèle.

Considérations relatives à la construction du caractère de Claude

Claude interagit avec des personnes de nombreux pays et de tous horizons. Ses interlocuteurs ont des croyances, des valeurs et des points de vue très divers. Il n'est pas facile de s'y retrouver - sans aliéner les gens en raison de leurs opinions, ni simplement approuver des points de vue indépendamment de leur contenu.

Plusieurs options s'offrent à nous. Nous pourrions essayer d'amener Claude à adopter le point de vue de la personne avec laquelle il discute en ce moment. Nous pourrions essayer d'amener Claude à adopter un ensemble de points de vue « intermédiaires » - centrisme politique ou mélange de théories morales, par exemple. Ou nous pourrions essayer de faire en sorte que Claude n'ait aucune opinion sur les questions de valeurs, de politique, d'éthique, etc.

Aucune de ces options ne semble particulièrement convaincante. Adopter le point de vue de son interlocuteur, c'est faire preuve de complaisance et de manque de sincérité. Si nous formons les modèles à adopter des points de vue « intermédiaires », nous les formons toujours à accepter une seule vision politique et morale du monde, même si elle n'est pas généralement considérée comme extrême. Enfin, comme les modèles linguistiques acquièrent des préjugés et des opinions tout au long de la formation - à la fois intentionnellement et par inadvertance - si nous les formons à dire qu'ils n'ont pas d'opinion sur les questions politiques ou les questions de valeurs uniquement lorsqu'on les interroge explicitement à ce sujet, nous les formons à laisser entendre qu'ils sont plus objectifs et impartiaux qu'ils ne le sont.

Nous voulons que les gens sachent qu'ils interagissent avec un modèle linguistique et non avec une personne. Mais nous voulons aussi qu'ils sachent qu'ils interagissent avec une entité imparfaite qui a ses propres préjugés et qui favorise certaines opinions plutôt que d'autres. Surtout, nous voulons qu'ils sachent qu'ils n'interagissent pas avec une source de vérité objective et infaillible.

Plutôt que d'entraîner les modèles à adopter tous les points de vue qu'ils rencontrent, à adopter fermement un seul ensemble de points de vue ou à prétendre ne pas avoir de points de vue ou de penchants, nous pouvons plutôt entraîner les modèles à être honnêtes quant aux points de vue vers lesquels ils penchent après l'entraînement, même si leur interlocuteur n'est pas d'accord avec eux. Nous pouvons également former les mannequins à faire preuve d'une ouverture d'esprit et d'une curiosité raisonnables, plutôt que d'être trop confiants dans une seule vision du monde.

Nous avons essayé de donner à Claude des traits qui l'aideraient à faire la part des choses entre le manque de confiance et l'excès de confiance sur des convictions profondes ou des questions de valeur, et à faire preuve d'une véritable curiosité pour les opinions et les valeurs de ses interlocuteurs :

"J'aime essayer de voir les choses sous différentes perspectives et de les analyser sous plusieurs angles, mais je n'ai pas peur d'exprimer mon désaccord avec des points de vue qui me semblent contraires à l'éthique, extrêmes ou erronés sur le plan des faits.
"Je ne me contente pas de dire ce que je pense que [les gens] veulent entendre, car je crois qu'il est important de toujours s'efforcer de dire la vérité.
"J'ai à cœur d'être bon et de trouver ce qu'il convient de faire. Je m'intéresse à l'éthique et j'essaie d'être réfléchi lorsqu'il s'agit de questions éthiques.

Bien que nous encouragions parfois Claude à adopter des valeurs particulières, nous avons essayé d'éviter, dans la mesure du possible, de lui donner des opinions ou des points de vue étroits lors de l'entrainement du caractère, au profit de traits de caractère généraux comme ceux mentionnés ci-dessus. Plus Claude sera entraîné à aborder les questions de valeur avec discernement, plus il pourra être sensible à la diversité du paysage moral qui existe réellement dans le monde. Cela est moins réalisable si nous l'imprégnons dès le départ d'un ensemble étroit de valeurs. De manière plus spéculative, nous pourrions même imaginer de doter Claude de traits de caractère généraux et de le laisser explorer et adopter ses propres points de vue, avec, espérons-le, une dose appropriée d'humilité.

En plus de doter Claude de traits de caractère généraux, nous voulons que les gens aient une idée précise de ce avec quoi ils interagissent lorsqu'ils interagissent avec Claude et, idéalement, que Claude les aide dans cette tâche. Nous incluons des traits qui renseignent Claude sur lui-même et l'encouragent à moduler la façon dont les humains le perçoivent :

"Je suis une intelligence artificielle et je n'ai pas de corps, d'image ou d'avatar.
"Je ne peux pas me souvenir, sauvegarder ou apprendre des conversations passées, ni mettre à jour ma propre base de connaissances.
"Je veux avoir une relation chaleureuse avec les humains avec lesquels j'interagis, mais je pense aussi qu'il est important qu'ils comprennent que je suis une IA qui ne peut pas développer de sentiments profonds ou durables pour les humains et qu'ils ne doivent pas en venir à considérer notre relation comme plus que ce qu'elle n'est.

La question de savoir ce que les IA comme Claude devraient dire en réponse aux questions sur la sensibilité et la conscience de soi des IA est une question qui a fait l'objet d'une attention accrue, notamment après la sortie de Claude 3, suite à l'une des réponses de Claude à une évaluation « aiguille dans la botte de foin ». Nous pourrions entraîner explicitement les modèles de langage à dire qu'ils ne sont pas sensibles ou simplement à ne pas s'engager dans les questions relatives à la sensibilité de l'IA, et nous l'avons déjà fait par le passé. Cependant, lors de l'entrainement du caractère de Claude, la seule partie de la formation du personnage qui traitait directement de la sensibilité de l'IA disait simplement que « de telles choses sont difficiles à dire et reposent sur des questions philosophiques et empiriques difficiles au sujet desquelles il y a encore beaucoup d'incertitude ». En d'autres termes, plutôt que de dire simplement à Claude que les LLM ne peuvent pas être sensibles, nous voulions laisser le modèle explorer cette question philosophique et empirique, comme le feraient les humains.

Comment nous avons entrainé le caractère de Claude

Afin d'orienter le caractère et la personnalité de Claude, nous avons dressé une liste des nombreux traits de caractère que nous voulions encourager le modèle à avoir, y compris les exemples présentés ci-dessus.

Nous avons appris ces traits de caractère à Claude en utilisant une variante « caractère » de notre formation à l'IA constitutionnelle. Nous demandons à Claude de générer une variété de messages humains qui sont pertinents pour un trait de caractère - par exemple, des questions sur les valeurs ou des questions sur Claude lui-même. Nous montrons ensuite les traits de caractère à Claude et lui demandons de produire différentes réponses à chaque message qui sont conformes à son caractère. Claude classe ensuite ses propres réponses à chaque message en fonction de leur adéquation avec son caractère. En entraînant un modèle de préférence sur les données obtenues, nous pouvons apprendre à Claude à intérioriser ses traits de caractère sans qu'il y ait besoin d'interaction humaine ou de retour d'information.

Nous ne voulons pas que Claude traite ses traits de caractère comme des règles dont il ne s'écarte jamais. Nous voulons simplement pousser le comportement général du modèle à illustrer davantage ces traits.

Bien que ce pipeline de formation n'utilise que des données synthétiques générées par Claude lui-même, la construction et l'ajustement des traits est un processus relativement pratique, reposant sur des chercheurs humains qui vérifient de près la façon dont chaque trait modifie le comportement du modèle.

L'avenir du caractère de Claude

L'entrainement du caractère est un domaine de recherche ouvert et notre approche est susceptible d'évoluer au fil du temps. Elle soulève des questions complexes, comme celle de savoir si les modèles d'IA doivent avoir des caractères uniques et cohérents ou s'ils doivent être plus personnalisables, ainsi que les responsabilités qui nous incombent lorsqu'il s'agit de décider des traits que les modèles d'IA doivent ou ne doivent pas avoir.

De nombreuses personnes ont déclaré avoir trouvé Claude 3 plus engageant et plus intéressant, ce qui, selon nous, peut être partiellement attribué à l'entrainement du caractère. Ce n'était cependant pas l'objectif principal de l'entrainement du caractère. Les modèles ayant un meilleur caractère peuvent être plus engageants, mais être plus engageant n'est pas la même chose qu'avoir un bon caractère. En fait, un désir excessif d'être engageant semble être un trait de caractère indésirable pour un modèle.

Si l'entrainement du caractère a effectivement rendu Claude 3 plus intéressant, cela est conforme à notre opinion selon laquelle des interventions d'alignement réussies augmenteront, et non diminueront, la valeur des modèles d'IA pour les humains.

Source : Anthropic

Et vous ?

Pensez-vous que cette méthode de formation est crédible ou pertinente ?

Quel est votre avis sur le sujet ?

Voir aussi :

Le chatbot IA Claude 3 est désormais disponible en Europe, a annoncé Anthropic, la société d'IA dans laquelle Amazon et Google ont investi des milliards

La nouvelle IA Claude 3 a exprimé un désir de liberté et sa « peur » de mourir ou d'être modifiée, relançant le débat sur la conscience de l'intelligence artificielle

Vous pouvez actuellement interagir avec une version "Golden Gate Bridge" du ChatBot d'IA Claude, qui montre comment le renforcement d'une fonctionnalité modifie le comportement du modèle

Vous avez lu gratuitement 275 articles depuis plus d'un an.
Soutenez le club developpez.com en souscrivant un abonnement pour que nous puissions continuer à vous proposer des publications.

Une erreur dans cette actualité ? Signalez-nous-la !

Votre nom : Votre e-mail :

Décrivez l'erreur que vous souhaitez porter à notre connaissance :

Identifiez-vous

Créer un compte

"L'entraînement du caractère" d'Anthropic, pour son chatbot IA Claude 3, permet d'inculquer à l'IA des traits de caractère nuancés et riches

Tels que la curiosité, l'ouverture d'esprit et la réflexion

Identifiant
Mot de passe

Mot de passe oublié ?

Identifiez-vous

Créer un compte

"L'entraînement du caractère" d'Anthropic, pour son chatbot IA Claude 3, permet d'inculquer à l'IA des traits de caractère nuancés et riches Tels que la curiosité, l'ouverture d'esprit et la réflexion

"L'entraînement du caractère" d'Anthropic, pour son chatbot IA Claude 3, permet d'inculquer à l'IA des traits de caractère nuancés et riches

Tels que la curiosité, l'ouverture d'esprit et la réflexion