Les capacités émergentes des grands modèles linguistiques sont-elles un mirage ? Les grands modèles linguistiques ne sont pas supérieurs à la somme de leurs parties

Selon des chercheurs de Stanford

Le 9 mai 2023 à 20:52, par Nancy Rey

339PARTAGES

Depuis quelques années, les leaders de la technologie vantent les capacités émergentes supposées de l'IA : la possibilité qu'au-delà d'un certain seuil de complexité, les grands modèles de langage (large language models : LLM) fassent des choses imprévisibles. Si nous parvenons à exploiter cette capacité, l'IA pourrait être en mesure de résoudre certains des plus grands problèmes de l'humanité, dit-on. Mais l'imprévisibilité est également effrayante : L'augmentation de la taille d'un modèle pourrait-elle libérer dans le monde un acteur totalement imprévisible et potentiellement malveillant ?

Cette inquiétude est largement partagée par de nombreux acteurs de l'industrie technologique. En effet, une lettre ouverte récemment rendue publique et signée par plus d'un millier de dirigeants du secteur technologique appelle à une pause de six mois dans les expériences d'IA géantes afin de prendre du recul par rapport à « la course dangereuse vers des modèles de boîte noire imprévisibles de plus en plus grands et dotés de capacités émergentes ».

Mais selon un nouvel article, nous pouvons peut-être mettre de côté cette préoccupation particulière concernant l'IA, explique l'auteur principal, Rylan Schaeffer, étudiant en deuxième année d'études supérieures en informatique à l'université de Stanford. « Avec des modèles plus grands, vous obtenez de meilleures performances, mais nous n'avons pas de preuves que le tout est plus grand que la somme de ses parties », dit-il.

En effet, comme lui et ses collègues Brando Miranda, doctorant à Stanford, et Sanmi Koyejo, professeur adjoint d'informatique, le montrent, la perception des capacités émergentes de l'IA est basée sur les mesures utilisées. « Le mirage des capacités émergentes n'existe qu'en raison du choix de la métrique par les programmeurs. Une fois que l'on étudie la question en changeant de métrique, le mirage disparaît », explique Schaeffer.

Trouver le mirage

Schaeffer a commencé à se demander si les prétendues capacités émergentes de l'IA étaient réelles alors qu'il assistait à une conférence les décrivant. « J'ai remarqué lors de cette conférence que de nombreuses capacités émergentes prétendues semblaient apparaître lorsque les chercheurs utilisaient certaines méthodes très spécifiques d'évaluation de ces modèles », explique-t-il.

Plus précisément, ces mesures évaluent plus sévèrement les performances des petits modèles, ce qui donne l'impression que des capacités nouvelles et imprévisibles apparaissent au fur et à mesure que les modèles grossissent. En effet, les graphiques de ces mesures affichent un changement brutal des performances à une taille de modèle donnée - c'est pourquoi les propriétés émergentes sont parfois appelées « virages serrés à gauche ».

Mais lorsque Schaeffer et ses collègues ont utilisé d'autres paramètres mesurant plus équitablement les capacités des modèles plus petits et plus grands, le saut attribué aux propriétés émergentes a disparu. Dans l'article publié le 28 avril dernier sur le service de préimpression arXiv, Schaeffer et ses collègues ont examiné 29 mesures différentes pour évaluer la performance des modèles. Vingt-cinq d'entre elles ne montrent aucune propriété émergente. Au contraire, elles révèlent une croissance continue et linéaire des capacités des modèles à mesure que leur taille augmente.

Et il existe des explications simples pour expliquer pourquoi les quatre autres mesures suggèrent à tort l'existence de propriétés émergentes. « Ce sont toutes des métriques pointues, déformantes et non continues », explique Schaeffer. « Ce sont des juges très sévères. En effet, en utilisant la métrique connue sous le nom de "correspondance exacte des chaînes de caractères", même un simple problème de mathématiques semblera développer des capacités émergentes à grande échelle», explique Schaeffer. Imaginez, par exemple, que vous fassiez une addition et que vous commettiez une erreur d'un chiffre. La métrique de correspondance exacte des chaînes de caractères considérera cette erreur comme aussi grave qu'une erreur d'un milliard de chiffres. Résultat : on ne tient pas compte de la façon dont les petits modèles s'améliorent progressivement au fur et à mesure qu'ils s'étendent, et on a l'impression que les grands modèles font de grands bonds en avant.

Schaeffer et ses collègues avaient également remarqué que personne n'avait affirmé que les grands modèles de vision présentaient des propriétés émergentes. Il s'avère que les chercheurs en vision n'utilisent pas les mesures sévères utilisées par les chercheurs en langage naturel. Lorsque Schaeffer a appliqué ces mesures rigoureuses à un modèle de vision, le mirage de l'émergence est apparu.

L'intelligence artificielle générale sera prévisible

C'est la première fois qu'une analyse approfondie montre que l'histoire très médiatisée des capacités émergentes des LLM découle de l'utilisation de mesures rigoureuses. Mais ce n'est pas la première fois que quelqu'un fait allusion à cette possibilité. Le récent article de Google intitulé "Beyond the Imitation Game" (Au-delà du jeu de l'imitation) suggérait que les métriques pouvaient être en cause. Et après la publication de l'article de Schaeffer, un chercheur scientifique travaillant sur les LLM à OpenAI a tweeté que l'entreprise avait fait des observations similaires.

Voici ce que cela signifie pour l'avenir : Nous n'avons plus à craindre de tomber accidentellement sur l'intelligence générale artificielle (artificial general intelligence : AGI). Oui, l'AGI peut encore avoir d'énormes conséquences pour la société humaine, affirme M. Schaeffer, mais si elle émerge, nous devrions être en mesure de la voir venir.

Des travaux récents affirment que les grands modèles de langage présentent des capacités émergentes, c'est-à-dire des capacités qui ne sont pas présentes dans les modèles à plus petite échelle mais qui le sont dans les modèles à plus grande échelle. Les capacités émergentes sont intrigantes à deux égards : leur netteté, la transition apparemment instantanée de l'absence à la présence, et leur imprévisibilité, l'apparition à des échelles de modèle apparemment imprévisibles. Nous présentons ici une explication alternative des capacités émergentes : pour une tâche et une famille de modèles particulières, lors de l'analyse de sorties de modèles fixes, on peut choisir une métrique qui conduit à la déduction d'une capacité émergente ou une autre métrique qui n'y conduit pas. Ainsi, notre alternative suggère que les affirmations existantes de capacités émergentes sont des créations des analyses du chercheur, et non des changements fondamentaux dans le comportement du modèle sur des tâches spécifiques avec l'échelle. Nous présentons notre explication dans un modèle mathématique simple, puis nous la testons de trois manières complémentaires : nous faisons, testons et confirmons trois prédictions sur l'effet du choix métrique en utilisant la famille InstructGPT/GPT-3 sur des tâches avec des capacités émergentes revendiquées, faisons, testons et confirmons deux prédictions sur les choix métriques dans une méta-analyse des capacités émergentes sur BIG-Bench ; et montrons comment des décisions métriques similaires suggèrent des capacités émergentes apparentes sur des tâches de vision dans diverses architectures de réseaux profonds (convolutionnel, auto-encodeur, transformateurs). Dans les trois analyses, nous trouvons des preuves solides que les capacités émergentes ne sont peut-être pas une propriété fondamentale des modèles d'intelligence artificielle à échelle réduite.

Source : Are Emergent Abilities of Large Language Models a Mirage? Rylan Schaeffer, Brando Miranda, Sanmi Koyejo

Et vous ?

Quel est votre avis sur le sujet ?

Pensez-vous que l'IA n'est qu'une simple mode surestimée, ou une vrai avancée technologique ?

Voir aussi :

Les IA inamicales constituent-elles le plus grand risque pour l'humanité ? Oui, d'après le créateur d'Ethereum qui s'attend à une future catastrophe, causée par l'intelligence artificielle générale

« Le développement de l'IA sans réglementation induit une menace existentielle pour l'humanité », d'après Elon Musk, dont une société développe des puces à insérer dans le cerveau pour contrer l'IA

Un chercheur de Google Deepmind cosigne un article selon lequel l'IA éliminera l'humanité et ravive les débats sur la possibilité d'un futur où la machine domine sur l'Homme

L'apocalypse s'accomplira-t-elle avec la création de l'IA ? L'entrepreneur Elon Musk pense que l'IA est la plus grande menace de l'humanité

Vous avez lu gratuitement 2 706 articles depuis plus d'un an.
Soutenez le club developpez.com en souscrivant un abonnement pour que nous puissions continuer à vous proposer des publications.

Une erreur dans cette actualité ? Signalez-nous-la !

Votre nom : Votre e-mail :

Décrivez l'erreur que vous souhaitez porter à notre connaissance :

Identifiez-vous

Créer un compte

Les capacités émergentes des grands modèles linguistiques sont-elles un mirage ? Les grands modèles linguistiques ne sont pas supérieurs à la somme de leurs parties

Selon des chercheurs de Stanford

Identifiant
Mot de passe

Mot de passe oublié ?

Identifiez-vous

Créer un compte

Les capacités émergentes des grands modèles linguistiques sont-elles un mirage ? Les grands modèles linguistiques ne sont pas supérieurs à la somme de leurs parties Selon des chercheurs de Stanford

Les capacités émergentes des grands modèles linguistiques sont-elles un mirage ? Les grands modèles linguistiques ne sont pas supérieurs à la somme de leurs parties

Selon des chercheurs de Stanford