L'ascension des LLM et ce qu’ils ont apportées
Les modèles de langage, alimentés par des milliards de paramètres, ont permis des avancées remarquables dans des domaines aussi variés que la traduction automatique, la génération de texte, la création de contenu, et même le diagnostic médical. Leur développement repose sur des architectures de plus en plus complexes et de vastes quantités de données textuelles, entraînées pendant des mois sur des supercalculateurs.
Au fil des années, chaque nouvelle version des LLM a marqué une étape importante. Par exemple, GPT-3, avec ses 175 milliards de paramètres, était capable de répondre aux questions, rédiger des articles, créer des scénarios ou résoudre des problèmes mathématiques simples avec une certaine précision. Plus récemment, GPT-4 et d'autres modèles encore plus grands promettaient d’aller encore plus loin, surpassant GPT-3 en termes de capacités de compréhension et de génération de texte.
Le phénomène du rendement décroissant
Pourtant, au fur et à mesure que les modèles augmentent en taille, les gains réels en performance semblent ralentir. Certains chercheurs parlent de « rendement décroissant » ou de « diminution des retours sur investissement ». Plusieurs raisons expliquent ce phénomène :
- Dépendance aux données : Pour chaque nouveau modèle, les besoins en données augmentent de manière exponentielle. Or, la disponibilité de données de haute qualité se raréfie. Les LLMs, qui reposent sur des volumes massifs de données textuelles, pourraient être en train d’épuiser les sources de données linguistiques diversifiées, entraînant ainsi des performances stagnantes ou des biais renforcés.
- Coûts et complexité croissants : Le coût d’entraînement des modèles de plus en plus grands est astronomique. Chaque nouveau palier de puissance nécessite des ressources matérielles colossales, sans compter la consommation énergétique et l'empreinte carbone qui en découlent. Les entreprises et laboratoires se demandent si ces investissements sont réellement justifiés par rapport aux améliorations marginales en précision.
- Qualité vs quantité des paramètres : Ajouter des paramètres ne signifie pas nécessairement une meilleure compréhension ou production linguistique. De nombreux chercheurs observent que la qualité des résultats produits par les LLMs atteint un seuil où des augmentations de taille n’apportent qu’une amélioration marginale, voire imperceptible, des performances.
Gary Marcus estime que les LLM ont atteint un point de rendement décroissant
Gary Marcus, fondateur et PDG de Geometric Intelligence, une startup d'apprentissage automatique rachetée par Uber en 2016, se montre critiquent face à ceux qui soutiennent une évolution exponentielle de l'IA. Par exemple, lorsqu'Elon Musk a prédit que l'IA va surpasser l'humain le plus intelligent en 2025 ou dès 2026, il s'est lancé dans un pari à 1 million de dollars (la mise est montée à 10 millions par la suite) contre les estimations d'Elon Musk :
« Cher Elon Musk. [Je mise] un million de dollars que ta dernière prédiction, à savoir que l'IA surpassera le plus intelligent sur terre d'ici fin 2025, est fausse. Pari tenu ? Je peux suggérer quelques règles à ton approbation »
Cette fois-ci, il revient à la charge en parlant du point de rendement décroissant
Ci-dessous, un extrait de son billet sur le sujet.
Cela fait des années que je préviens que la « mise à l'échelle », qui consiste à améliorer l'IA en ajoutant plus de données et plus de calcul, sans apporter de changements architecturaux fondamentaux, ne se poursuivra pas éternellement. Dans mon article le plus célèbre, en mars 2022, j'ai affirmé que « l'apprentissage profond se heurte à un mur ». L'argument central était que la mise à l'échelle pure ne résoudrait pas les hallucinations ou l'abstraction ; j'ai conclu que « l'argument de la mise à l'échelle présente de sérieuses lacunes », ce qui m'a valu de nombreuses critiques.
Sam Altman a laissé entendre (sans prononcer mon nom, mais en reprenant les images de mon article alors récent) que j'étais un « médiocre sceptique de l'apprentissage profond » ; Greg Brockman s'est ouvertement moqué de ce titre. Yann LeCun a écrit que l'apprentissage profond ne se heurtait pas à un mur, et ainsi de suite. Elon Musk lui-même s'est moqué de moi et de ce titre au début de l'année.
Le fait est qu'à long terme, la science n'est pas la règle de la majorité. En fin de compte, la vérité l'emporte généralement. L'alchimie a connu une bonne période, mais elle a été remplacée par la chimie. La vérité, c'est que l'échelle est en train de s'épuiser, et que cette vérité est enfin en train d'émerger.
Il y a quelques jours, le célèbre investisseur en capital-risque Marc Andreesen a commencé à vendre la mèche en déclarant lors d'un podcast : « Nous augmentons [les unités de traitement graphique] au même rythme, mais nous n'en tirons pas du tout d'améliorations intelligentes », ce qui signifie en langage de capital-risque : « L'apprentissage en profondeur se heurte à un mur ».
Il y a quelques instants, Amir Efrati, rédacteur en chef de la revue spécialisée The Information, a confirmé que nous avions atteint une période de rendements décroissants, en écrivant sur X que « le [prochain] modèle Orion d'OpenAI montre à quel point les améliorations GPT ralentissent ».
Comme je l'ai affirmé ici en avril 2024, les LLM ont atteint un point de rendement décroissant.
Les conséquences économiques seront probablement désastreuses. Les valorisations élevées de sociétés comme OpenAI et Microsoft sont largement basées sur l'idée que les LLM deviendront, en continuant à se développer, des intelligences générales artificielles. Comme je l'ai toujours dit, il s'agit là d'un fantasme. Il n'y a pas de solution de principe aux hallucinations dans les systèmes qui ne traitent que les statistiques du langage sans représentation explicite des faits et sans outils explicites pour raisonner sur ces faits.Folks, game over. I won.
— Gary Marcus (@GaryMarcus) November 9, 2024
GPT is hitting a period of diminishing returns, just like I said it would. https://t.co/vSfn1lAc3D
Les LLM ne disparaîtront pas, même si les améliorations diminuent, mais l'économie n'aura probablement jamais de sens : la formation supplémentaire est coûteuse, plus l'échelle est grande, plus elle est coûteuse. Et, comme je l'ai signalé, tout le monde atterrit plus ou moins au même endroit, ce qui fait que personne n'a de fossé. Les LLM, tels qu'ils sont, deviendront une marchandise ; les guerres de prix maintiendront les revenus à un niveau bas. Compte tenu du coût des puces, les bénéfices seront insaisissables. Lorsque tout le monde s'en rendra compte, la bulle financière risque d'éclater rapidement ; même NVidia pourrait être touchée, lorsque les gens réaliseront à quel point son évaluation était basée sur une fausse prémisse.
Une étude d'Apple conclut que les modèles d'IA basés sur le LLM sont défectueux car ils ne peuvent pas raisonner
Des scientifiques d'Apple spécialisés dans l'IA ont étudié les capacités de raisonnement des grands modèles de langage (LLM) et les limites des évaluations actuelles sur le GSM8K. Ils ont constaté que les modèles d'IA basés sur le LLM, entre autres ceux de Meta et d'OpenAI, manquent encore de compétences de base en matière de raisonnement.
Le groupe a proposé un nouveau critère de référence, GSM-Symbolic, pour aider les autres à mesurer les capacités de raisonnement de divers grands modèles de langage (LLM). Leurs premiers tests révèlent que de légères modifications dans la formulation des requêtes peuvent donner lieu à des réponses sensiblement différentes, ce qui compromet la fiabilité des modèles.
Le groupe a étudié la "fragilité" du raisonnement mathématique en ajoutant à ses requêtes des informations contextuelles qu'un humain pourrait comprendre, mais qui ne devraient pas affecter les mathématiques fondamentales de la solution. Cela a donné lieu à des réponses variables, ce qui ne devrait pas se produire.
"Plus précisément, les performances de tous les modèles diminuent [même] lorsque seules les valeurs numériques de la question sont modifiées dans le benchmark GSM-Symbolic", écrit le groupe dans son rapport. "En outre, la fragilité du raisonnement mathématique dans ces modèles [démontre] que leurs performances se détériorent de manière significative à mesure que le nombre de clauses dans une question augmente."
L'étude a montré que l'ajout d'une seule phrase qui semble fournir des informations pertinentes pour une question de mathématiques donnée peut réduire la précision de la réponse finale jusqu'à 65 %. « Il est tout simplement impossible de construire des agents fiables sur cette base, où la modification d'un mot ou deux de manière non pertinente ou l'ajout de quelques informations non pertinentes peut donner une réponse différente », conclut l'étude.
Source : Gary Marcus
Et vous ?
Que pensez-vous de l'avis de Gary Marcus ?
La qualité et la diversité des données utilisées deviennent-elles un obstacle pour les LLM ? Sommes-nous proches d’une saturation où toutes les sources de données linguistiques possibles auraient été exploitées ?
Est-il judicieux de concentrer des ressources massives dans les LLM si les bénéfices semblent se réduire ? Comment évaluer ces gains à court terme face aux risques d’appauvrissement de l’innovation dans d’autres domaines de l'IA ?
Avec les performances stagnantes, devrions-nous revoir les objectifs des LLM ? Devrions-nous, par exemple, viser des applications de niche où la performance est maximale plutôt que de chercher des capacités de compréhension universelles ?