IdentifiantMot de passe
Loading...
Mot de passe oublié ?Je m'inscris ! (gratuit)

Vous êtes nouveau sur Developpez.com ? Créez votre compte ou connectez-vous afin de pouvoir participer !

Vous devez avoir un compte Developpez.com et être connecté pour pouvoir participer aux discussions.

Vous n'avez pas encore de compte Developpez.com ? Créez-en un en quelques instants, c'est entièrement gratuit !

Si vous disposez déjà d'un compte et qu'il est bien activé, connectez-vous à l'aide du formulaire ci-dessous.

Identifiez-vous
Identifiant
Mot de passe
Mot de passe oublié ?
Créer un compte

L'inscription est gratuite et ne vous prendra que quelques instants !

Je m'inscris !

Les grands modèles de langage (LLM) sont-ils arrivés à saturation ? Oui, selon Gary Marcus
Qui estime que « les LLM ont atteint un point de rendement décroissant »

Le , par Stéphane le calme

14PARTAGES

10  0 
Les modèles de langage de grande taille (LLMs) tels que GPT, BERT, et leurs diverses déclinaisons ont transformé de nombreux secteurs et amélioré nos interactions avec les technologies d’intelligence artificielle (IA). Cependant, certains experts et chercheurs suggèrent aujourd’hui que ces modèles pourraient avoir atteint un point de rendement décroissant. Autrement dit, malgré leur capacité grandissante et leurs architectures de plus en plus sophistiquées, les résultats produits n'augmentent plus proportionnellement aux ressources investies dans leur développement.

L'ascension des LLM et ce qu’ils ont apportées

Les modèles de langage, alimentés par des milliards de paramètres, ont permis des avancées remarquables dans des domaines aussi variés que la traduction automatique, la génération de texte, la création de contenu, et même le diagnostic médical. Leur développement repose sur des architectures de plus en plus complexes et de vastes quantités de données textuelles, entraînées pendant des mois sur des supercalculateurs.

Au fil des années, chaque nouvelle version des LLM a marqué une étape importante. Par exemple, GPT-3, avec ses 175 milliards de paramètres, était capable de répondre aux questions, rédiger des articles, créer des scénarios ou résoudre des problèmes mathématiques simples avec une certaine précision. Plus récemment, GPT-4 et d'autres modèles encore plus grands promettaient d’aller encore plus loin, surpassant GPT-3 en termes de capacités de compréhension et de génération de texte.

Le phénomène du rendement décroissant

Pourtant, au fur et à mesure que les modèles augmentent en taille, les gains réels en performance semblent ralentir. Certains chercheurs parlent de « rendement décroissant » ou de « diminution des retours sur investissement ». Plusieurs raisons expliquent ce phénomène :
  • Dépendance aux données : Pour chaque nouveau modèle, les besoins en données augmentent de manière exponentielle. Or, la disponibilité de données de haute qualité se raréfie. Les LLMs, qui reposent sur des volumes massifs de données textuelles, pourraient être en train d’épuiser les sources de données linguistiques diversifiées, entraînant ainsi des performances stagnantes ou des biais renforcés.
  • Coûts et complexité croissants : Le coût d’entraînement des modèles de plus en plus grands est astronomique. Chaque nouveau palier de puissance nécessite des ressources matérielles colossales, sans compter la consommation énergétique et l'empreinte carbone qui en découlent. Les entreprises et laboratoires se demandent si ces investissements sont réellement justifiés par rapport aux améliorations marginales en précision.
  • Qualité vs quantité des paramètres : Ajouter des paramètres ne signifie pas nécessairement une meilleure compréhension ou production linguistique. De nombreux chercheurs observent que la qualité des résultats produits par les LLMs atteint un seuil où des augmentations de taille n’apportent qu’une amélioration marginale, voire imperceptible, des performances.

Gary Marcus estime que les LLM ont atteint un point de rendement décroissant

Gary Marcus, fondateur et PDG de Geometric Intelligence, une startup d'apprentissage automatique rachetée par Uber en 2016, se montre critiquent face à ceux qui soutiennent une évolution exponentielle de l'IA. Par exemple, lorsqu'Elon Musk a prédit que l'IA va surpasser l'humain le plus intelligent en 2025 ou dès 2026, il s'est lancé dans un pari à 1 million de dollars (la mise est montée à 10 millions par la suite) contre les estimations d'Elon Musk :

« Cher Elon Musk. [Je mise] un million de dollars que ta dernière prédiction, à savoir que l'IA surpassera le plus intelligent sur terre d'ici fin 2025, est fausse. Pari tenu ? Je peux suggérer quelques règles à ton approbation »


Cette fois-ci, il revient à la charge en parlant du point de rendement décroissant

Ci-dessous, un extrait de son billet sur le sujet.

Cela fait des années que je préviens que la « mise à l'échelle », qui consiste à améliorer l'IA en ajoutant plus de données et plus de calcul, sans apporter de changements architecturaux fondamentaux, ne se poursuivra pas éternellement. Dans mon article le plus célèbre, en mars 2022, j'ai affirmé que « l'apprentissage profond se heurte à un mur ». L'argument central était que la mise à l'échelle pure ne résoudrait pas les hallucinations ou l'abstraction ; j'ai conclu que « l'argument de la mise à l'échelle présente de sérieuses lacunes », ce qui m'a valu de nombreuses critiques.

Sam Altman a laissé entendre (sans prononcer mon nom, mais en reprenant les images de mon article alors récent) que j'étais un « médiocre sceptique de l'apprentissage profond » ; Greg Brockman s'est ouvertement moqué de ce titre. Yann LeCun a écrit que l'apprentissage profond ne se heurtait pas à un mur, et ainsi de suite. Elon Musk lui-même s'est moqué de moi et de ce titre au début de l'année.

Le fait est qu'à long terme, la science n'est pas la règle de la majorité. En fin de compte, la vérité l'emporte généralement. L'alchimie a connu une bonne période, mais elle a été remplacée par la chimie. La vérité, c'est que l'échelle est en train de s'épuiser, et que cette vérité est enfin en train d'émerger.

Il y a quelques jours, le célèbre investisseur en capital-risque Marc Andreesen a commencé à vendre la mèche en déclarant lors d'un podcast : « Nous augmentons [les unités de traitement graphique] au même rythme, mais nous n'en tirons pas du tout d'améliorations intelligentes », ce qui signifie en langage de capital-risque : « L'apprentissage en profondeur se heurte à un mur ».

Il y a quelques instants, Amir Efrati, rédacteur en chef de la revue spécialisée The Information, a confirmé que nous avions atteint une période de rendements décroissants, en écrivant sur X que « le [prochain] modèle Orion d'OpenAI montre à quel point les améliorations GPT ralentissent ».

Comme je l'ai affirmé ici en avril 2024, les LLM ont atteint un point de rendement décroissant.

Les conséquences économiques seront probablement désastreuses. Les valorisations élevées de sociétés comme OpenAI et Microsoft sont largement basées sur l'idée que les LLM deviendront, en continuant à se développer, des intelligences générales artificielles. Comme je l'ai toujours dit, il s'agit là d'un fantasme. Il n'y a pas de solution de principe aux hallucinations dans les systèmes qui ne traitent que les statistiques du langage sans représentation explicite des faits et sans outils explicites pour raisonner sur ces faits.

Les LLM ne disparaîtront pas, même si les améliorations diminuent, mais l'économie n'aura probablement jamais de sens : la formation supplémentaire est coûteuse, plus l'échelle est grande, plus elle est coûteuse. Et, comme je l'ai signalé, tout le monde atterrit plus ou moins au même endroit, ce qui fait que personne n'a de fossé. Les LLM, tels qu'ils sont, deviendront une marchandise ; les guerres de prix maintiendront les revenus à un niveau bas. Compte tenu du coût des puces, les bénéfices seront insaisissables. Lorsque tout le monde s'en rendra compte, la bulle financière risque d'éclater rapidement ; même NVidia pourrait être touchée, lorsque les gens réaliseront à quel point son évaluation était basée sur une fausse prémisse.

Une étude d'Apple conclut que les modèles d'IA basés sur le LLM sont défectueux car ils ne peuvent pas raisonner

Des scientifiques d'Apple spécialisés dans l'IA ont étudié les capacités de raisonnement des grands modèles de langage (LLM) et les limites des évaluations actuelles sur le GSM8K. Ils ont constaté que les modèles d'IA basés sur le LLM, entre autres ceux de Meta et d'OpenAI, manquent encore de compétences de base en matière de raisonnement.

Le groupe a proposé un nouveau critère de référence, GSM-Symbolic, pour aider les autres à mesurer les capacités de raisonnement de divers grands modèles de langage (LLM). Leurs premiers tests révèlent que de légères modifications dans la formulation des requêtes peuvent donner lieu à des réponses sensiblement différentes, ce qui compromet la fiabilité des modèles.

Le groupe a étudié la "fragilité" du raisonnement mathématique en ajoutant à ses requêtes des informations contextuelles qu'un humain pourrait comprendre, mais qui ne devraient pas affecter les mathématiques fondamentales de la solution. Cela a donné lieu à des réponses variables, ce qui ne devrait pas se produire.

"Plus précisément, les performances de tous les modèles diminuent [même] lorsque seules les valeurs numériques de la question sont modifiées dans le benchmark GSM-Symbolic", écrit le groupe dans son rapport. "En outre, la fragilité du raisonnement mathématique dans ces modèles [démontre] que leurs performances se détériorent de manière significative à mesure que le nombre de clauses dans une question augmente."

L'étude a montré que l'ajout d'une seule phrase qui semble fournir des informations pertinentes pour une question de mathématiques donnée peut réduire la précision de la réponse finale jusqu'à 65 %. « Il est tout simplement impossible de construire des agents fiables sur cette base, où la modification d'un mot ou deux de manière non pertinente ou l'ajout de quelques informations non pertinentes peut donner une réponse différente », conclut l'étude.

Source : Gary Marcus

Et vous ?

Que pensez-vous de l'avis de Gary Marcus ?
La qualité et la diversité des données utilisées deviennent-elles un obstacle pour les LLM ? Sommes-nous proches d’une saturation où toutes les sources de données linguistiques possibles auraient été exploitées ?
Est-il judicieux de concentrer des ressources massives dans les LLM si les bénéfices semblent se réduire ? Comment évaluer ces gains à court terme face aux risques d’appauvrissement de l’innovation dans d’autres domaines de l'IA ?
Avec les performances stagnantes, devrions-nous revoir les objectifs des LLM ? Devrions-nous, par exemple, viser des applications de niche où la performance est maximale plutôt que de chercher des capacités de compréhension universelles ?

Une erreur dans cette actualité ? Signalez-nous-la !

Avatar de calvaire
Expert éminent https://www.developpez.com
Le 12/11/2024 à 11:57
est il vraiment pertinent de faire un gros modèle ?

j'ai déja eu un cas concret dans le passé (rien a voir avec les llm), plus on faisait un gros réseau de neurone avec de la data (de "qualité" en plus) plus le modèle était mauvais/stagnait (overfitting).
au final nous avons fait plusieurs petit modèle et un classifier en front pour choisir le modèle en fonction des données d'entrées, les résultats était bien meilleurs ainsi.
l'article parle t'il d'ia généraliste comme chatgpt ou d'ia spécialisé par exemple dans le code ou des 2 ?

De toute façon cette technos et fatalement limité par la production humaine, si demain l'ia remplace les devs, alors l'ia ne pourra plus évoluer. C'est grâce à des humains qui écrive des docs, trouve des bugs les corrige ou écrive sur les forum comment les contourner et donne des réponses bénévolement sur stackoverflow que l'ia progresse.

Or l’informatique c'est surement le domaine le moins stable dans le monde, y'a toujours une nouvelle technos, une nouvelle version, des patchs de sécurité a faire...si bien que il faut évoluer et s'adapter, pour un humain, c'est un aspect que l'on peut aimer ou détester, mais ce que l'on apprends à la sortie d'école et déjà obsolète, c'est de l'apprentissage continue.

edit: même dans le cas d'ia orienté code, une fois ratissez les forums style stackoverflow, c'est compliqué d'aller plus loins

par contre, j'imagine dans le futur une fonctionnalité pour les entreprises permettant de donner à l'ia toute la base de code et doc technique de l'entreprise et s'entrainer dessus, ainsi l'ia aurait le contexte de l'entreprise et le coding standard. Ca serait déja une belle amélioration dans la qualité des réponses.
par exemple je lui demande comment me connecter une l'api d'un service interne, elle va me donner le code, comment m'y connecter (demander à Jean Jacque sur teams de me crée un compte machine avec token en lecture, ensuite de tester la connexion avec ce code et enfin la fonctionnalité que vous avez demandez)
4  0 
Avatar de totozor
Expert confirmé https://www.developpez.com
Le 12/11/2024 à 7:23
Citation Envoyé par Stéphane le calme Voir le message
les résultats produits n'augmentent plus proportionnellement aux ressources investies dans leur développement.
Dans les bulles financières le résultat technique est assez peu important donc Altman & Co ne se font pas trop de soucis.
Jusqu'à ce qu'elle éclate.
2  0 
Avatar de Rakoun
Nouveau membre du Club https://www.developpez.com
Le 13/11/2024 à 22:00
Bonjour,

Je n'ai pas lu tout l'article mais ce qu'il faut avoir à l'esprit c'est qu'on n'est qu'au balbutiement de l'IA.
Je pense qu'on n'est pas plus avancé en IA que lors des débuts de l'aviation où l'homme pensait qu'il fallait battre des ailes pour s'envoler.

Peut-être que dans quelques années on ne parlera plus de réseaux de neurones car on aura découvert une autre façon de "faire" de l'intelligence.
C'est comme les yeux de la coquille Saint-Jacques.
1  0 
Avatar de Matthieu Vergne
Expert éminent https://www.developpez.com
Le 18/11/2024 à 21:15
Citation Envoyé par calvaire Voir le message
est il vraiment pertinent de faire un gros modèle ?

j'ai déja eu un cas concret dans le passé (rien a voir avec les llm), plus on faisait un gros réseau de neurone avec de la data (de "qualité" en plus) plus le modèle était mauvais/stagnait (overfitting).
au final nous avons fait plusieurs petit modèle et un classifier en front pour choisir le modèle en fonction des données d'entrées, les résultats était bien meilleurs ainsi.
On parle de mixture of experts aujourd'hui pour ce type de structure.
Il y a aussi une notion de grokking pour des phénomènes d'amélioration de l'apprentissage bien après le point d'overfitting.
On a encore de quoi sortir le popcorn pour un moment je pense.
1  0 
Avatar de floyer
Membre éclairé https://www.developpez.com
Le 18/11/2024 à 21:27
Je note que bing copilot est pas mal... il propose des références. Du coup, j'ai l'impression qu'un LLM qui sert à interpréter (à défaut de vraiment comprendre la phrase), sortir des référence, les réinjecter dans le prompt pour faire un résumé, bref une approche hybride (LLM/recherche) peut être plus pertinente qu'une approche uniquement axée sur le moteur de neurone.

Et j'imagine que cela aurait peut-être pu éviter à un avocat de se faire taper sur les doigts faute d'avoir vérifier les "références" proposées par le LLM.
1  0 
Avatar de totozor
Expert confirmé https://www.developpez.com
Le 13/11/2024 à 7:29
Citation Envoyé par calvaire Voir le message
j'ai déja eu un cas concret dans le passé (rien a voir avec les llm), plus on faisait un gros réseau de neurone avec de la data (de "qualité" en plus) plus le modèle était mauvais/stagnait (overfitting).
au final nous avons fait plusieurs petit modèle et un classifier en front pour choisir le modèle en fonction des données d'entrées, les résultats était bien meilleurs ainsi.
Il y a pas mal d'exemple comme ça.
Une des méthode de calcul d'un nombre irrationnel (pi il me semble) est convergente jusqu'à un certain nombre d'itération puis oscille autour de sa valeur
Sous Catia V5 (logiciel de CAO), dans certains modèles, la modélisation par éléments finis a une granularité optimale, une fois dépassée on génère des points avec des anomalies ce qui dégrade le résultat.

Ce n'est pas pour rien que certains modèles de données interdisent trop de liens, parce qu'on arrive avec "deux chemins" et "deux résultats" différents pour une même formule.
C'est le risque que courent tous ceux qui font la promotion de modélisation de données avec un niveau d'abstraction maximal.
0  1