
L'IA générative s'appuie sur les grands modèles de langage (LLM) pour répondre aux questions des utilisateurs et accomplir les tâches. Quant aux grands modèles de langage, ils sont entraînés sur d'immenses volumes de données glanées sur Internet. Ces données comprennent des livres, des articles de presse, des pages Web, des dépôts de code source et des conversations en ligne. Leur entraînement utilise des techniques d'apprentissage non supervisé.
Pourtant, les grands modèles de langage restent d'énormes boîtes noires. Leur fonctionnement interne demeure largement incompris, même par leurs concepteurs. Dans le cadre de leur entraînement, les modèles d'IA apprennent à prédire le mot suivant dans une séquence en analysant d'immenses volumes de texte. Cependant, une fois ces modèles entraînés, il est extrêmement difficile de déterminer comment ils parviennent à une réponse spécifique.
Leurs décisions résultent de calculs internes opaques : on observe les entrées et les sorties, mais le processus intermédiaire reste obscur. Chez Google, par exemple, les dirigeants ont reconnu et expliqué qu'il est normal de ne pas comprendre tous les processus par lesquels un modèle arrive à un résultat.
Une explication pour laquelle ils ont utilisé un exemple, puisque l'IA de l'entreprise s'est adapté après avoir été interrogé dans la langue du Bangladesh « qu'il n'était pas entraîné à connaître ». Un journaliste de CBS a interviewé le PDG de Google Sundar Pichai, sur ce sujet. « Vous ne comprenez pas complètement comment cela fonctionne, et pourtant vous l'avez mis à la disposition de la société ? », a demandé le journaliste avec un air très inquiet.
Sundar Pichai a déclaré: « ce n'est pas grave, je ne pense pas non plus que nous comprenions parfaitement le fonctionnement de l'esprit humain ». Même son de cloche chez OpenAI et d'autres entreprises de premier plan qui développent l'IA générative. Anthropic, une startup dans laquelle Google investit, a, quant à lui, mené une étude pour essayer de comprendre pourquoi les grands modèles de langage apprennent des choses inattendues.
Les découvertes d'Anthropic sur le fonctionnement de son IA Claude
Selon les chercheurs d'Anthropic, connaître « le mode de pensée » des modèles comme Claude nous permettrait de mieux comprendre leurs capacités et nous aiderait à nous assurer qu'ils font ce que nous voulons qu'ils fassent. Anthropic a analysé dix comportements différents dans Claude et a obtenu des résultats intéressants. L'un d'entre eux est l'utilisation de différentes langues : « Claude a-t-il une partie qui parle français et une autre qui parle chinois ? ».
Ils ont déjà obtenu une réponse à la question, car ils ont constaté que Claude utilise des composants indépendants de toute langue pour répondre à une question ou résoudre un problème, puis choisissait une langue spécifique lorsqu'il répondait. Ils ont demandé à Claude « quel est le contraire de petit ? » en anglais, en français et en chinois. Ils ont constaté que Claude utilise d'abord les composants indépendamment de la langue pour donner une réponse.
Il s'agit d'une déduction qu'il a faite avant de répondre dans une langue particulière. Cela suggère que l'IA utilise des éléments dans une langue, puis les apprend et les applique dans d'autres. Cette méthode a également été utilisée pour résoudre des problèmes mathématiques simples et il a été constaté que Claude développe ses propres stratégies et qu'elle est donc différente de celles que le modèle avait observées dans ses données d'apprentissage.
L'étude cherche à révéler le fonctionnement interne des IA : « ces résultats ne sont pas seulement intéressants d'un point de vue scientifique, mais représentent également un pas important vers notre objectif de comprendre les systèmes d'IA et de s'assurer qu'ils sont fiables », explique l'entreprise.
Autres découvertes surprenantes de l'équipe d'Anthropic sur Claude
Le rapport de l'étude a été publié le mois dernier. Les chercheurs y ont relaté les différentes observations qu'ils ont faites. Dans un cas où ils ont utilisé Claude pour écrire des poèmes, ils ont constaté que l'IA elle-même se projette toujours dans l'avenir et choisit le mot à la fin de la ligne suivante, sans se contenter d'improviser : « nous avons cherché à démontrer que le modèle n'était pas prévoyant, et nous avons découvert qu'il l'était », ont-ils conclu.
L'équipe a donné un autre exemple : « dans une réponse à un exemple de jailbreak, nous avons constaté que le modèle a reconnu qu'on lui avait demandé des informations dangereuses bien avant qu'il ne soit capable d'orienter la conversation ». Les chercheurs d'Anthropic ont expliqué :

Anthropic définit le traçage des circuits (Circuit tracing) comme une technique permettant de découvrir les mécanismes qui sous-tendent les comportements des grands modèles de langage. « Trouver des circuits dans un grand modèle de pointe tel que Claude est une prouesse technique non triviale. Cela montre que les circuits peuvent être mis à l'échelle et qu'ils pourraient constituer un bon moyen d'interpréter les modèles de langage », a déclaré Eden Biran.
Il existe encore de nombreuses zones d'ombre à éclaircir
L'équipe d'Anthropic s'est dite surprise par « certains contournements contre-intuitifs » que les grands modèles de langage semblent utiliser pour compléter des phrases, résoudre des problèmes mathématiques simples, supprimer des hallucinations, et bien d'autres choses encore. Cependant, Joshua Batson, chercheur d'Anthropic, affirme qu'il y a encore de sérieuses limites. Selon lui, l'étude du fonctionnement interne des modèles n'en est qu'à ses débuts.
« Il est faux de croire que nous avons trouvé toutes les composantes du modèle ou que nous avons une vue d'ensemble. Certaines choses sont nettes, mais d'autres ne le sont pas encore ; une distorsion du microscope », dit-il. Et il faut plusieurs heures à un chercheur humain pour retracer les réponses à des questions, même très courtes. De plus, les grands peuvent faire plusieurs choses différentes, et Anthropic n'en a étudié que 10 jusqu'à présent.
Joshua Batson précise également que cette approche ne permet pas de répondre à certaines grandes questions. Le traçage des circuits peut être utilisé pour observer les structures à l'intérieur d'un grand modèle de langage, mais il ne vous dira pas comment ou pourquoi ces structures se sont formées au cours de l'apprentissage du modèle. « C'est une question profonde que nous n'abordons pas du tout dans ce travail », a déclaré le...
La fin de cet article est réservée aux abonnés. Soutenez le Club Developpez.com en prenant un abonnement pour que nous puissions continuer à vous proposer des publications.