IdentifiantMot de passe
Loading...
Mot de passe oublié ?Je m'inscris ! (gratuit)

Vous êtes nouveau sur Developpez.com ? Créez votre compte ou connectez-vous afin de pouvoir participer !

Vous devez avoir un compte Developpez.com et être connecté pour pouvoir participer aux discussions.

Vous n'avez pas encore de compte Developpez.com ? Créez-en un en quelques instants, c'est entièrement gratuit !

Si vous disposez déjà d'un compte et qu'il est bien activé, connectez-vous à l'aide du formulaire ci-dessous.

Identifiez-vous
Identifiant
Mot de passe
Mot de passe oublié ?
Créer un compte

L'inscription est gratuite et ne vous prendra que quelques instants !

Je m'inscris !

L'IA des LLMs développent leur propre compréhension de la réalité au fur et à mesure que leurs capacités linguistiques s'améliorent
Selon une étude sur la représentation émergente dans les modèles de langage

Le , par Jade Emy

5PARTAGES

8  0 
Selon une étude, les grands modèles de langage (LLM) développent leur propre compréhension de la réalité au fur et à mesure que leurs capacités linguistiques s'améliorent. Lors d'expériences contrôlées, les chercheurs du MIT ont découvert que des simulations de la réalité se développaient au plus profond des LLM, ce qui indique une compréhension du langage allant au-delà du simple mimétisme.

Un grand modèle de langage (LLM) est un modèle informatique qui se distingue par sa capacité à générer du langage à des fins générales et à réaliser d'autres tâches de traitement du langage naturel telles que la classification. Basés sur des modèles de langage, les LLM acquièrent ces capacités en apprenant des relations statistiques à partir de grandes quantités de texte au cours d'un processus d'apprentissage auto-supervisé et semi-supervisé à forte intensité de calcul.

Demandez à un LLM comme GPT-4 de sentir l'odeur d'un camping détrempé par la pluie et il refusera poliment. Demandez à ce même système de vous décrire cette odeur, et il vous parlera avec poésie d'un "air chargé d'anticipation" et d'une "odeur à la fois fraîche et terreuse", bien qu'il n'ait pas d'expérience préalable de la pluie ni de nez pour l'aider à faire de telles observations. Une explication possible de ce phénomène est que le LLM imite simplement le texte présent dans ses vastes données d'entraînement, plutôt que de travailler avec une réelle compréhension de la pluie ou de l'odeur.

Mais l'absence d'yeux signifie-t-elle que les modèles de langage ne peuvent jamais "comprendre" qu'un lion est "plus gros" qu'un chat domestique ? Les philosophes et les scientifiques considèrent depuis longtemps que la capacité à donner un sens au langage est une caractéristique de l'intelligence humaine, et se demandent quels sont les ingrédients essentiels qui nous permettent de le faire.

En se penchant sur cette énigme, des chercheurs du Computer Science and Artificial Intelligence Laboratory (CSAIL) du MIT ont découvert des résultats intrigants qui suggèrent que les modèles de langage peuvent développer leur propre compréhension de la réalité afin d'améliorer leurs capacités génératives.


Vue d'ensemble du contexte expérimental

L'équipe a d'abord développé un ensemble de petits puzzles de Karel, qui consistaient à trouver des instructions pour contrôler un robot dans un environnement simulé. Ils ont ensuite formé un LLM sur les solutions, mais sans démontrer comment les solutions fonctionnaient réellement. Enfin, à l'aide d'une technique d'apprentissage automatique appelée "probing", ils ont examiné le "processus de pensée" du modèle lorsqu'il génère de nouvelles solutions.

Après s'être entraînés sur plus d'un million de puzzles aléatoires, ils ont constaté que le modèle développait spontanément sa propre conception de la simulation sous-jacente, bien qu'il n'ait jamais été exposé à cette réalité au cours de l'entraînement. Ces résultats remettent en question les intuitions sur les types d'informations nécessaires à l'apprentissage du sens linguistique, et si les LLM ne comprendront pas un jour le langage à un niveau plus profond qu'ils ne le font aujourd'hui.

"Au début de ces expériences, le modèle de langage générait des instructions aléatoires qui ne fonctionnaient pas. À la fin de la formation, notre modèle de langage générait des instructions correctes à un taux de 92,4 %", explique Charles Jin, doctorant en génie électrique et informatique (EECS) au MIT et affilié au CSAIL. "Ce fut un moment très excitant pour nous, car nous avons pensé que si un modèle de langage pouvait accomplir une tâche avec un tel niveau de précision, on pouvait s'attendre à ce qu'il comprenne également les significations de la langue. Cela nous a donné un point de départ pour déterminer si les modèles de langage comprenaient effectivement les textes, et nous voyons maintenant qu'ils sont capables de bien plus que de simplement assembler des mots à l'aveuglette".


Résultats des expériences

Les modèles de langage peuvent développer leur propre compréhension de la réalité

Dans cette étude, les chercheurs présentent des preuves que les modèles de langage (LM) de code peuvent apprendre à représenter la sémantique formelle des programmes. Il est intéressant de noter que les modèles n'ont été entraînés uniquement que pour effectuer la prédiction du prochain trait. Pour se faire, ils ont entraîné un modèle Transformer sur un corpus synthétique de programmes écrits dans un langage spécifique à un domaine pour naviguer dans des environnements en grille 2D. Chaque programme du corpus est précédé d'une spécification (partielle) sous la forme de plusieurs états d'entrée-sortie dans le monde quadrillé.

Malgré l'absence de biais inductifs supplémentaires, ils ont constaté qu'un classificateur d'exploration est capable d'extraire des états cachés du LM des représentations de plus en plus précises des états intermédiaires non observés du monde quadrillé au cours de l'entraînement. Cela suggère que le LM acquiert une capacité émergente à interpréter les programmes au sens formel du terme.

Les chercheurs ont également développé une nouvelle ligne de base interventionnelle qui permet de désambiguïser ce qui est représenté par le LM par opposition à ce qui est appris par la sonde. Cette technique pourrait s'appliquer de manière générale à un large éventail d'expériences de sondage sémantique. Ainsi, l'étude ne propose pas de nouvelles techniques pour la formation des LM de code, mais développe un cadre expérimental pour l'acquisition et la représentation de la sémantique formelle dans les modèles statistiques de code et donne des indications à ce sujet.


Ligne de base interventionnelle proposée

Voici les conclusions des chercheurs suite à cette étude :

Cet article présente des preuves empiriques que les modèles statistiques de code peuvent acquérir la sémantique formelle des programmes à partir de la prédiction du prochain jeton.

Nous constatons que, lors de l'entraînement d'un LM pour modéliser un texte composé d'exemples de spécifications d'entrée-sortie suivies de programmes, le processus d'apprentissage du LM semble passer par trois phases distinctes, la deuxième moitié de l'entraînement étant caractérisée par une forte corrélation linéaire entre les représentations émergentes de la sémantique et la capacité du LM à synthétiser des programmes qui mettent correctement en œuvre des spécifications non vues. Nous trouvons également des représentations de la sémantique future, ce qui suggère une notion d'intention pendant la génération. Des explorations plus poussées de cette dynamique pourraient apporter des informations plus approfondies sur le comportement des LM.

Nous présentons également des interventions de sondage sémantique, un cadre pour l'application de sondages - un outil standard pour l'interprétation des représentations apprises, par exemple, des modèles neuronaux - afin de comprendre si les représentations capturent des informations liées à la sémantique sous-jacente d'un domaine. Plus précisément, nous concevons des expériences capables de distinguer si la mesure de la sonde indique (1) la présence d'informations sémantiques intrinsèques aux représentations ou (2) la capacité de la sonde à effectuer la tâche elle-même, avec des informations purement syntaxiques encodées dans les représentations.

Cela nous permet également de justifier l'utilisation de sondes non linéaires qui, en l'absence de notre technique, sont plus susceptibles de produire des faux positifs parce qu'elles ont une plus grande capacité d'apprentissage de la tâche ; nous considérons que le fait de dépasser les sondes peu profondes est un moyen de progresser vers la compréhension de la question de savoir si (et comment) les LM représentent des concepts plus complexes.

Plus généralement, la question de savoir ce que les LM apprennent exactement du texte a suscité un intérêt considérable ces dernières années, en raison des performances de plus en plus impressionnantes des modèles de frontière. Nous pensons que les techniques et les idées présentées dans ce travail peuvent servir de base à des études futures sur les capacités et les limites des LM.

Source : "Emergent Representations of Program Semantics in Language Models Trained on Programs"

Et vous ?

Pensez-vous que cette étude est crédible ou pertinente ?
Quel est votre avis sur le sujet ?

Voir aussi :

Un modèle d'IA de recherche a modifié de façon inattendue son propre code pour étendre son temps d'exécution soulevant des préoccupations quant à l'utilisation d'IA non supervisées

L'intelligence artificielle (IA) manque de capacité d'apprentissage autonome et ne constitue pas une menace existentielle selon une étude sur les capacités émergentes des grands modèles de langage (LLM)

L'IA semble s'approcher rapidement d'un mur où elle ne peut pas devenir plus intelligente : l'IA sera-t-elle à court de données ? Limites de la mise à l'échelle des LLM sur les données générées par l'homme

Une erreur dans cette actualité ? Signalez-nous-la !