Anthropic a introduit une nouvelle approche à l'entraînement de l'IA, connue sous le nom d' "entraînement du caractère", en ciblant spécifiquement son dernier modèle, Claude 3. Cette nouvelle méthode vise à inculquer à l'IA des traits de caractère nuancés et riches tels que la curiosité, l'ouverture d'esprit et la réflexion, établissant ainsi une nouvelle norme pour le comportement de l'IA.Claude est une famille de grands modèles de langage développés par Anthropic. Le premier modèle a été publié en mars 2023. Les modèles Claude sont des transformateurs génératifs pré-entraînés. Ils ont été pré-entraînés pour prédire le mot suivant dans de grandes quantités de texte. Les modèles Claude ont ensuite été affinés avec l'IA constitutionnelle dans le but de les rendre utiles, honnêtes et inoffensifs. Claude 3 semble effectuer un raisonnement métacognitif, y compris la capacité de se rendre compte qu'il est testé artificiellement.
Traditionnellement, les modèles d'IA sont entraînés à éviter les paroles et les actions nuisibles. Cependant, l'entraînement du caractère d'Anthropic va au-delà de l'évitement du mal en s'efforçant de développer des modèles qui présentent des traits associés à des individus sages et bien équilibrés. Selon Anthropic, l'objectif est de faire en sorte que les modèles d'IA ne soient pas seulement inoffensifs, mais qu'ils fassent preuve de discernement et de réflexion.
Cette initiative a débuté avec Claude 3, où l'entraînement du caractère a été intégrée dans le processus d'affinage de l'alignement, qui intervient après la formation initiale du modèle. Cette phase transforme le modèle de texte prédictif en un assistant IA sophistiqué. Les traits de caractère recherchés sont la curiosité à l'égard du monde, une communication sincère sans méchanceté, et la capacité à prendre en compte plusieurs aspects d'une question.
Défis et considérations
L'un des principaux défis de la formation du personnage de Claude est son interaction avec une base d'utilisateurs diversifiée. Claude doit naviguer dans des conversations avec des personnes ayant un large éventail de croyances et de valeurs, sans les aliéner ou simplement les apaiser. Anthropic a exploré diverses stratégies, telles que l'adoption des points de vue des utilisateurs, le maintien d'un point de vue intermédiaire ou l'absence d'opinion. Toutefois, ces approches ont été jugées insuffisantes.
Au lieu de cela, Anthropic vise à former Claude à être honnête sur ses penchants et à faire preuve d'une ouverture d'esprit et d'une curiosité raisonnables. Il s'agit d'éviter l'excès de confiance en une seule vision du monde et de faire preuve d'une réelle curiosité à l'égard des différentes perspectives. Par exemple, Claude pourrait dire : « J'aime essayer de voir les choses de plusieurs points de vue différents et de les analyser sous plusieurs angles, mais je n'ai pas peur d'exprimer mon désaccord avec des points de vue qui me semblent contraires à l'éthique, extrêmes ou erronés sur le plan des faits ».
Processus de formation
Le processus d'entraînement du caractère de Claude comprend une liste de traits de caractère souhaités. À l'aide d'une variante de la formation à l'IA constitutionnelle, Claude génère des messages de type humain correspondant à ces traits. Il produit ensuite plusieurs réponses alignées sur ses traits de caractère et les classe en fonction de leur alignement. Cette méthode permet à Claude d'intérioriser ces traits de caractère sans avoir besoin d'une interaction humaine directe ou d'un retour d'information.
Anthropic insiste sur le fait qu'ils ne veulent pas que Claude considère ces traits de caractère comme des règles rigides, mais plutôt comme des directives comportementales générales. La formation s'appuie fortement sur des données synthétiques et nécessite que des chercheurs humains surveillent et ajustent étroitement les caractéristiques pour s'assurer qu'elles influencent le comportement du modèle de manière appropriée.
Perspectives d'avenir
L'entraînement du caractère est un domaine de recherche en pleine évolution. Elle soulève d'importantes questions : les modèles d'IA doivent-ils avoir des caractères uniques et cohérents ou être personnalisables, et quelles sont les responsabilités éthiques liées au choix des traits qu'une IA doit posséder ?
Les premiers commentaires suggèrent que la formation des personnages de Claude 3 l'a rendu plus engageant et plus intéressant à interagir. Bien que cet engagement n'ait pas été l'objectif principal, il indique que des interventions d'alignement réussies peuvent améliorer la valeur globale des modèles d'IA pour les utilisateurs humains.
Alors qu'Anthropic continue d'affiner le caractère de Claude, les implications plus larges pour le développement de l'IA et l'interaction deviendront probablement plus évidentes, établissant potentiellement de nouvelles références pour le domaine.
Anthropic donne plus de détails sur l'entrainement du caractère de Claude :
[QUOTE]
Le caractère de Claude
Les entreprises qui développent des modèles d'IA les entraînent généralement à ne pas dire de choses nuisibles et à ne pas participer à des tâches nuisibles. L'objectif est d'apprendre aux modèles à se comporter de manière « inoffensive ». Mais lorsque nous pensons au caractère des personnes que nous trouvons vraiment admirables, nous ne pensons pas seulement à l'évitement du mal. Nous pensons à ceux qui sont curieux du monde, qui s'efforcent de dire la vérité sans être méchants et qui sont capables de voir plusieurs aspects d'une question sans devenir trop sûrs d'eux ou trop prudents dans leurs opinions. Nous pensons à ceux qui écoutent patiemment, qui réfléchissent attentivement, qui ont de l'esprit dans leurs conversations, et à bien d'autres traits que nous associons à une personne sage et bien équilibrée.
Les modèles d'IA ne sont évidemment pas des personnes. Mais à mesure qu'ils deviennent plus performants, nous pensons que nous pouvons - et devons - essayer de les entraîner à bien se comporter dans ce sens beaucoup plus riche. Cela pourrait même les rendre plus perspicaces lorsqu'il s'agit de savoir si et pourquoi ils évitent de participer à des tâches qui pourraient être nuisibles, et comment ils décident de réagir à la place.
Claude 3 est le premier modèle pour lequel nous avons ajouté l' « entrainement du caractère » à notre processus de perfectionnement de l'alignement : la partie de la formation qui intervient après la formation initiale du modèle, et la partie qui le fait passer d'un modèle de texte prédictif à un assistant d'IA. L'objectif de l'entraînement au caractère est de faire en sorte que Claude commence à avoir des traits de caractère plus nuancés et plus riches, comme la curiosité, l'ouverture d'esprit et la réflexion.
Il serait facile de considérer le caractère des modèles d'IA comme une caractéristique du produit, visant délibérément à offrir une expérience utilisateur plus intéressante, plutôt que comme une intervention d'alignement. Mais les traits et les dispositions des modèles d'IA ont des effets considérables sur la manière dont ils agissent dans le monde. Ils déterminent la manière dont les modèles réagissent à des situations nouvelles et difficiles, ainsi qu'à l'éventail des opinions et des valeurs humaines existantes. Entraîner les...
La fin de cet article est réservée aux abonnés. Soutenez le Club Developpez.com en prenant un abonnement pour que nous puissions continuer à vous proposer des publications.
