IdentifiantMot de passe
Loading...
Mot de passe oublié ?Je m'inscris ! (gratuit)

Vous êtes nouveau sur Developpez.com ? Créez votre compte ou connectez-vous afin de pouvoir participer !

Vous devez avoir un compte Developpez.com et être connecté pour pouvoir participer aux discussions.

Vous n'avez pas encore de compte Developpez.com ? Créez-en un en quelques instants, c'est entièrement gratuit !

Si vous disposez déjà d'un compte et qu'il est bien activé, connectez-vous à l'aide du formulaire ci-dessous.

Identifiez-vous
Identifiant
Mot de passe
Mot de passe oublié ?
Créer un compte

L'inscription est gratuite et ne vous prendra que quelques instants !

Je m'inscris !

Les capacités « émergentes » des personnes en formation initiale se développent en réalité de manière progressive et prévisible,
Selon des chercheurs

Le , par Bruno

46PARTAGES

4  0 
Une récente étude remet en question la notion d'émergence soudaine des capacités des grands modèles linguistiques. Initialement considérées comme des percées imprévisibles, ces capacités se révèlent en réalité évoluer de manière graduelle et prévisible, selon la façon dont elles sont mesurées. Le projet Beyond the Imitation Game benchmark (BIG-bench) a mis en lumière ces comportements, montrant que certaines compétences restent longtemps à un niveau bas avant de s'améliorer brusquement. Toutefois, des chercheurs de l'université de Stanford remettent en question cette idée d'émergence, affirmant que cela dépend en grande partie de la manière dont les performances des modèles sont évaluées. Ils suggèrent que l'émergence est davantage une illusion créée par les métriques de mesure plutôt qu'une caractéristique intrinsèque des modèles.

Une étude sur l'addition à trois chiffres illustre cette perspective, montrant que les performances des modèles peuvent varier selon la méthode d'évaluation utilisée. Bien que certains scientifiques reconnaissent la pertinence de cette remise en question, d'autres soulignent que des discontinuités dans l'amélioration des modèles persistent, indépendamment de la manière dont les mesures sont prises. En fin de compte, la compréhension de l'émergence des capacités des modèles linguistiques reste un sujet complexe et crucial pour la communauté de recherche, surtout compte tenu de l'impact potentiel de ces technologies dans divers domaines.



Les capacités émergentes des grands modèles de langage sont le produit des choix de métriques effectués par les chercheurs, et non de variations imprévisibles dans le comportement des modèles à mesure qu'ils évoluent en taille.

  1. Supposons que la perte d'entropie croisée par trait diminue de façon monotone avec l'échelle du modèle diminue de façon monotone avec l'échelle du modèle, c'est-à-dire que le LCE évolue comme une loi de puissance ;
  2. La probabilité par jeton de sélectionner le jeton correct asymptote vers 1 ;
  3. Si le chercheurévalue les résultats des modèles à l'aide d'une mesure non linéaire telle que la précision (qui exige qu'une séquence de jetons soit toujours correcte).
  4. de jetons soient tous corrects), le choix de la métrique échelonne la performance de manière non linéaire, ce qui entraîne une variation brutale et imprévisible de la performance de manière imprévisible d'une manière qui correspond qualitativement aux capacités émergentes publiées (encadré).
  5. émergentes publiées (encadré) ;
  6. Si le chercheur évalue plutôt les résultats des modèles à l'aide d'une mesure discontinue comme la note de choix multiple (qui s'apparente à une fonction en escalier), le choix de la métrique échelonne la performance de manière discontinue, ce qui entraîne à nouveau une variation brutale de la performance.
  7. de manière discontinue, ce qui entraîne à nouveau des variations brutales et imprévisibles de la performance ;
  8. Le passage d'une métrique non linéaire à une métrique linéaire telle que Token Edit Distance, la mise à l'échelle montre des améliorations lisses, continues et prévisibles, éliminant ainsi les effets de la métrique non linéaire sur les performances ;
  9. et prévisibles, faisant disparaître la capacité émergente ;
  10. Passage d'une métrique discontinue à une métrique continue telle que le score de Brier révèle à nouveau des améliorations lisses, continues et prévisibles dans l'exécution de la tâche. Des améliorations lisses, continues et prévisibles de la performance. Par conséquent, les capacités émergentes sont créées par le choix des mesures du chercheur, et non par des changements fondamentaux dans le comportement de la famille modèle sur des tâches spécifiques avec l'échelle.

Il a été démontré que la mise à l'échelle des modèles de langage améliore de manière prévisible les performances et l'efficacité de l'échantillonnage sur un large éventail de tâches en aval. Les chercheurs ont traité plutôt d'un phénomène imprévisible qu'ils appelent les capacités émergentes des grands modèles de langage. Ils considèrent qu'une capacité est émergente si elle n'est pas présente dans les modèles plus petits mais qu'elle l'est dans les modèles plus grands. Ainsi, les capacités émergentes ne peuvent pas être prédites simplement en extrapolant les performances des modèles plus petits. L'existence d'une telle émergence soulève la question de savoir si une mise à l'échelle supplémentaire pourrait potentiellement élargir davantage l'éventail des capacités des modèles de langage.

À quelle vitesse les grands modèles linguistiques acquièrent-ils des compétences inattendues ?

Les chercheurs suggèrent que les capacités dites émergentes se développent en fait progressivement et de manière prévisible, en fonction de la manière dont elles sont mesurées. Il y a deux ans, dans le cadre d'un projet appelé Beyond the Imitation Game benchmark (BIG-bench), 450 chercheurs ont dressé une liste de 204 tâches destinées à tester les capacités des grands modèles de langage, qui alimentent les chatbots tels que ChatGPT. Pour la plupart des tâches, les performances se sont améliorées de manière prévisible et régulière au fur et à mesure de l'augmentation de la taille des modèles - plus le modèle est grand, plus il s'améliore. Mais pour d'autres tâches, l'augmentation des capacités n'a pas été régulière. Les performances sont restées proches de zéro pendant un certain temps, puis elles ont augmenté. D'autres études ont mis en évidence des sauts de capacité similaires.

Les auteurs ont décrit ce comportement comme une « percée » ; d'autres chercheurs l'ont comparé à une transition de phase en physique, comme lorsque l'eau liquide se transforme en glace. Dans un article publié en août 2022, les chercheurs notent que ces comportements sont non seulement surprenants mais aussi imprévisibles, et qu'ils devraient éclairer les conversations en cours sur la sécurité, le potentiel et le risque de l'IA. Ils ont qualifié ces capacités d' « émergentes », un terme qui décrit les comportements collectifs qui n'apparaissent qu'une fois qu'un système atteint un haut niveau de complexité. Mais les choses ne sont peut-être pas si simples.

Définition des capacités émergentes

En tant que concept général, l'émergence est souvent utilisée de manière informelle et peut être raisonnablement interprétée de nombreuses manières différentes. Dans le présent document, nous examinerons une définition ciblée des capacités émergentes des grands modèles linguistiques : Une capacité est émergente si elle n'est pas présente dans les modèles plus petits mais qu'elle est présente dans les modèles plus grands.

Les capacités émergentes n'auraient pas été directement prédites par l'extrapolation d'une loi d'échelle (c'est-à-dire des améliorations constantes des performances) à partir de modèles à petite échelle. Lorsqu'elles sont visualisées à l'aide d'une courbe d'échelle (axe des x : échelle du modèle, axe des y : performances), les capacités émergentes présentent un schéma clair : les performances sont quasi aléatoires jusqu'à ce qu'un certain seuil critique d'échelle soit atteint, après quoi les performances augmentent et deviennent nettement supérieures aux performances aléatoires. Ce changement qualitatif est également connu sous le nom de transition de phase - un changement spectaculaire dans le comportement global qui n'aurait pas été prévu en examinant des systèmes à plus petite échelle.

Les modèles de langage actuels ont été mis à l'échelle principalement en fonction de trois facteurs : la quantité de calcul, le nombre de paramètres du modèle et la taille de l'ensemble de données d'apprentissage. Dans le présent document, les chercheurs ont analysé les courbes de mise à l'échelle en traçant les performances de différents modèles où le calcul de formation pour chaque modèle est mesuré en FLOPs sur l'axe des x. Étant donné que les modèles linguistiques formés avec plus de calcul ont tendance à avoir également plus de paramètres.

Échelle du modèle (FLOps d'entraînement)


L'utilisation des FLOP de formation ou des paramètres du modèle comme axe des abscisses produit des courbes aux formes similaires, car la plupart...
La fin de cet article est réservée aux abonnés. Soutenez le Club Developpez.com en prenant un abonnement pour que nous puissions continuer à vous proposer des publications.

Une erreur dans cette actualité ? Signalez-nous-la !