IdentifiantMot de passe
Loading...
Mot de passe oublié ?Je m'inscris ! (gratuit)

Vous êtes nouveau sur Developpez.com ? Créez votre compte ou connectez-vous afin de pouvoir participer !

Vous devez avoir un compte Developpez.com et être connecté pour pouvoir participer aux discussions.

Vous n'avez pas encore de compte Developpez.com ? Créez-en un en quelques instants, c'est entièrement gratuit !

Si vous disposez déjà d'un compte et qu'il est bien activé, connectez-vous à l'aide du formulaire ci-dessous.

Identifiez-vous
Identifiant
Mot de passe
Mot de passe oublié ?
Créer un compte

L'inscription est gratuite et ne vous prendra que quelques instants !

Je m'inscris !

Les grands modèles de langage (LLM) sont-ils arrivés à saturation ? Oui, selon Gary Marcus
Qui estime que « les LLM ont atteint un point de rendement décroissant »

Le , par Stéphane le calme

124PARTAGES

10  0 
Les grands modèles de langage (LLM) sont-ils arrivés à saturation ? Oui, selon Gary Marcus
qui estime que « les LLM ont atteint un point de rendement décroissant »

Les modèles de langage de grande taille (LLMs) tels que GPT, BERT, et leurs diverses déclinaisons ont transformé de nombreux secteurs et amélioré nos interactions avec les technologies d’intelligence artificielle (IA). Cependant, certains experts et chercheurs suggèrent aujourd’hui que ces modèles pourraient avoir atteint un point de rendement décroissant. Autrement dit, malgré leur capacité grandissante et leurs architectures de plus en plus sophistiquées, les résultats produits n'augmentent plus proportionnellement aux ressources investies dans leur développement.

L'ascension des LLM et ce qu’ils ont apportées

Les modèles de langage, alimentés par des milliards de paramètres, ont permis des avancées remarquables dans des domaines aussi variés que la traduction automatique, la génération de texte, la création de contenu, et même le diagnostic médical. Leur développement repose sur des architectures de plus en plus complexes et de vastes quantités de données textuelles, entraînées pendant des mois sur des supercalculateurs.

Au fil des années, chaque nouvelle version des LLM a marqué une étape importante. Par exemple, GPT-3, avec ses 175 milliards de paramètres, était capable de répondre aux questions, rédiger des articles, créer des scénarios ou résoudre des problèmes mathématiques simples avec une certaine précision. Plus récemment, GPT-4 et d'autres modèles encore plus grands promettaient d’aller encore plus loin, surpassant GPT-3 en termes de capacités de compréhension et de génération de texte.

Le phénomène du rendement décroissant

Pourtant, au fur et à mesure que les modèles augmentent en taille, les gains réels en performance semblent ralentir. Certains chercheurs parlent de « rendement décroissant » ou de « diminution des retours sur investissement ». Plusieurs raisons expliquent ce phénomène :
  • Dépendance aux données : Pour chaque nouveau modèle, les besoins en données augmentent de manière exponentielle. Or, la disponibilité de données de haute qualité se raréfie. Les LLMs, qui reposent sur des volumes massifs de données textuelles, pourraient être en train d’épuiser les sources de données linguistiques diversifiées, entraînant ainsi des performances stagnantes ou des biais renforcés.
  • Coûts et complexité croissants : Le coût d’entraînement des modèles de plus en plus grands est astronomique. Chaque nouveau palier de puissance nécessite des ressources matérielles colossales, sans compter la consommation énergétique et l'empreinte carbone qui en découlent. Les entreprises et laboratoires se demandent si ces investissements sont réellement justifiés par rapport aux améliorations marginales en précision.
  • Qualité vs quantité des paramètres : Ajouter des paramètres ne signifie pas nécessairement une meilleure compréhension ou production linguistique. De nombreux chercheurs observent que la qualité des résultats produits par les LLMs atteint un seuil où des augmentations de taille n’apportent qu’une amélioration marginale, voire imperceptible, des performances.

Gary Marcus estime que les LLM ont atteint un point de rendement décroissant

Gary Marcus, fondateur et PDG de Geometric Intelligence, une startup d'apprentissage automatique rachetée par Uber en 2016, se montre critiquent face à ceux qui soutiennent une évolution exponentielle de l'IA. Par exemple, lorsqu'Elon Musk a prédit que l'IA va surpasser l'humain le plus intelligent en 2025 ou dès 2026, il s'est lancé dans un pari à 1 million de dollars (la mise est montée à 10 millions par la suite) contre les estimations d'Elon Musk :

« Cher Elon Musk. [Je mise] un million de dollars que ta dernière prédiction, à savoir que l'IA surpassera le plus intelligent sur terre d'ici fin 2025, est fausse. Pari tenu ? Je peux suggérer quelques règles à ton approbation »


Cette fois-ci, il revient à la charge en parlant du point de rendement décroissant

Ci-dessous, un extrait de son billet sur le sujet.

Cela fait des années que je préviens que la « mise à l'échelle », qui consiste à améliorer l'IA en ajoutant plus de données et plus de calcul, sans apporter de changements architecturaux fondamentaux, ne se poursuivra pas éternellement. Dans mon article le plus célèbre, en mars 2022, j'ai affirmé que « l'apprentissage profond se heurte à un mur ». L'argument central était que la mise à l'échelle pure ne résoudrait pas les hallucinations ou l'abstraction ; j'ai conclu que « l'argument de la mise à l'échelle présente de sérieuses lacunes », ce qui m'a valu de nombreuses critiques.

Sam Altman a laissé entendre (sans prononcer mon nom, mais en reprenant les images de mon article alors récent) que j'étais un « médiocre sceptique de l'apprentissage profond » ; Greg Brockman s'est ouvertement moqué de ce titre. Yann LeCun a écrit que l'apprentissage profond ne se heurtait pas à un mur, et ainsi de suite. Elon Musk lui-même s'est moqué de moi et de ce titre au début de l'année.

Le fait est qu'à long terme, la science n'est pas la règle de la majorité. En fin de compte, la vérité l'emporte généralement. L'alchimie a connu une bonne période, mais elle a été remplacée par la chimie. La vérité, c'est que l'échelle est en train de s'épuiser, et que cette vérité est enfin en train d'émerger.

Il y a quelques jours, le célèbre investisseur en capital-risque Marc Andreesen a commencé à vendre la mèche en déclarant lors d'un podcast : « Nous augmentons [les unités de traitement graphique] au même rythme, mais nous n'en tirons pas du tout d'améliorations intelligentes », ce qui signifie en langage de capital-risque : « L'apprentissage en profondeur se heurte à un mur ».

Il y a quelques instants, Amir Efrati, rédacteur en chef de la revue spécialisée The Information, a confirmé que nous avions atteint une période de rendements décroissants, en écrivant sur X que « le [prochain] modèle Orion d'OpenAI montre à quel point les améliorations GPT ralentissent ».

Comme je l'ai affirmé ici en avril 2024, les LLM ont atteint un point de rendement décroissant.

[TWITTER]<blockquote class="twitter-tweet"><p lang="en" dir="ltr">Folks, game over. I won. <br><br>GPT is hitting a period of diminishing returns, just like I said it would. <a href="https://t.co/vSfn1lAc3D">https://t.co/vSfn1lAc3D</a></p>— Gary Marcus (@GaryMarcus) <a href="https://twitter.com/GaryMarcus/status/1855382564015689959?ref_src=twsrc%5Etfw">November 9, 2024</a></blockquote> <script async src="https://platform.twitter.com/widgets.js" charset="utf-8"></script> [/TWITTER]

Les conséquences économiques seront probablement désastreuses. Les valorisations élevées de sociétés comme OpenAI et Microsoft sont largement basées sur l'idée que les LLM deviendront, en continuant à se développer, des intelligences générales artificielles. Comme je l'ai toujours dit, il s'agit là d'un fantasme. Il n'y a pas de solution de principe aux hallucinations dans les systèmes qui ne traitent que les statistiques du langage sans représentation explicite des faits et sans outils explicites pour raisonner sur ces faits.

Les LLM ne disparaîtront pas, même si les améliorations diminuent, mais l'économie n'aura probablement jamais de sens : la formation supplémentaire est coûteuse, plus l'échelle est grande, plus elle est coûteuse. Et, comme je l'ai signalé, tout le monde atterrit plus ou moins au même endroit, ce qui fait que personne n'a de fossé. Les LLM, tels qu'ils sont, deviendront une marchandise ; les guerres de prix maintiendront les revenus à un niveau bas. Compte tenu du coût des puces, les bénéfices seront insaisissables. Lorsque tout le monde s'en rendra compte, la bulle financière risque d'éclater rapidement ; même NVidia pourrait être touchée, lorsque les gens réaliseront à quel point son évaluation était basée sur une fausse prémisse.

Une étude d'Apple conclut que les modèles d'IA basés sur le LLM sont défectueux car ils ne peuvent pas raisonner

Des scientifiques d'Apple spécialisés dans l'IA ont étudié les capacités de raisonnement des grands modèles de langage (LLM) et les limites des évaluations actuelles sur le GSM8K. Ils ont constaté que les modèles d'IA basés sur le LLM, entre autres ceux de Meta et d'OpenAI, manquent encore de compétences de base en matière de raisonnement.

Le groupe a proposé un nouveau critère de référence, GSM-Symbolic, pour aider les autres à mesurer les capacités de raisonnement de divers grands modèles de langage (LLM). Leurs premiers tests révèlent que de légères modifications dans la formulation des requêtes peuvent donner lieu à des réponses sensiblement différentes, ce qui compromet la fiabilité des modèles.

Le groupe a étudié la "fragilité" du raisonnement mathématique en ajoutant à ses requêtes des informations contextuelles qu'un humain pourrait comprendre, mais qui ne devraient pas affecter les mathématiques fondamentales de la solution. Cela a donné lieu à des réponses variables, ce qui ne devrait pas se produire.

"Plus précisément, les performances de tous les modèles diminuent [même] lorsque seules les valeurs numériques de la question sont modifiées dans le benchmark GSM-Symbolic", écrit le groupe dans son rapport. "En outre, la fragilité du raisonnement mathématique dans ces modèles [démontre] que leurs performances se détériorent de manière significative à mesure que le nombre de clauses dans une question augmente."

L'étude a montré que l'ajout d'une seule phrase qui semble fournir des informations pertinentes pour une question de mathématiques donnée peut réduire la précision de la réponse finale jusqu'à 65 %. « Il est tout simplement impossible de construire des agents fiables sur cette base, où la modification d'un mot ou deux de manière non pertinente ou l'ajout de quelques informations non pertinentes peut donner une réponse différente », conclut l'étude.

Source : Gary Marcus

Et vous ?

Que pensez-vous de l'avis de Gary Marcus ?
La qualité et la diversité des données utilisées deviennent-elles un obstacle pour les LLM ? Sommes-nous proches d’une saturation où toutes les sources de données linguistiques possibles auraient été exploitées ?
Est-il judicieux de concentrer des ressources massives dans les LLM si les bénéfices semblent se réduire ? Comment évaluer ces gains à court terme face aux risques d’appauvrissement de l’innovation dans d’autres domaines de l'IA ?
Avec les performances stagnantes, devrions-nous revoir les objectifs des LLM ? Devrions-nous, par exemple, viser des applications de niche où la performance est maximale plutôt que de chercher des capacités de compréhension universelles ?
Vous avez lu gratuitement 9 088 articles depuis plus d'un an.
Soutenez le club developpez.com en souscrivant un abonnement pour que nous puissions continuer à vous proposer des publications.

Une erreur dans cette actualité ? Signalez-nous-la !

Avatar de kain_tn
Expert éminent https://www.developpez.com
Le 18/12/2025 à 11:22
Citation Envoyé par marsupial Voir le message
Ça ne se décide pas à l'échelle d'un pays mais de toute la planète. Ainsi, seuls 11% des jobs sont remplaçables par l'IA actuelle. Encore insuffisant pour justifier une modification du système dans l'immédiat. Donc je répète ma réponse initiale : seule issue, la puce quantique.
Ah bon, il y a 11% de managers?

Okay, je sors. On n'est pas encore vendredi...
6  0 
Avatar de gabi7756
Membre confirmé https://www.developpez.com
Le 22/10/2025 à 11:19
Citation Envoyé par Ryu2000 Voir le message

Il y a énormément d'argent qui est investit dans la recherche et le développement, on ne peut pas savoir quelles avancées technologiques auront lieu.
Le cerveau humaine reste et restera pour les prochaines années un mystère.

Donc dupliquer cela d'une quelconque manière que ce soit semble une fiction...

On simule un tant soit peu intelligence humaine pour les non initiés et pof c'est magique, dans 2 semaines on va se faire remplacé par une IA. Mais quand on scrute un peu en profondeur ... Bon voila quoi
5  0 
Avatar de marsupial
Expert éminent https://www.developpez.com
Le 15/12/2025 à 19:02
Une seule issue : la puce quantique. Mais là, on fait déjà des capteurs équipés de puces quantiques (Thales), mais pour le QPU, il va falloir attendre encore quelques années. Quandela a déjà livré ses premiers ordinateurs quantiques. Au début ils étaient très techniques mais, récemment, ils l'ont rendu transparent pour l'utilisateur donc le codeur. source Pascale Senellart au Collège de France.

edit : le lien de l'entretien source
5  0 
Avatar de Jon Shannow
Membre extrêmement actif https://www.developpez.com
Le 16/12/2025 à 8:28
Citation Envoyé par Artaeus Voir le message
Le progrès technologique avance et c'est une très bonne chose.
En théorie, et à une époque hélas révolue, j'aurais été entièrement d'accord. Aujourd'hui, je ne suis pas sûr que ce soit une bonne chose...
5  0 
Avatar de calvaire
Expert éminent https://www.developpez.com
Le 12/11/2024 à 11:57
est il vraiment pertinent de faire un gros modèle ?

j'ai déja eu un cas concret dans le passé (rien a voir avec les llm), plus on faisait un gros réseau de neurone avec de la data (de "qualité" en plus) plus le modèle était mauvais/stagnait (overfitting).
au final nous avons fait plusieurs petit modèle et un classifier en front pour choisir le modèle en fonction des données d'entrées, les résultats était bien meilleurs ainsi.
l'article parle t'il d'ia généraliste comme chatgpt ou d'ia spécialisé par exemple dans le code ou des 2 ?

De toute façon cette technos et fatalement limité par la production humaine, si demain l'ia remplace les devs, alors l'ia ne pourra plus évoluer. C'est grâce à des humains qui écrive des docs, trouve des bugs les corrige ou écrive sur les forum comment les contourner et donne des réponses bénévolement sur stackoverflow que l'ia progresse.

Or l’informatique c'est surement le domaine le moins stable dans le monde, y'a toujours une nouvelle technos, une nouvelle version, des patchs de sécurité a faire...si bien que il faut évoluer et s'adapter, pour un humain, c'est un aspect que l'on peut aimer ou détester, mais ce que l'on apprends à la sortie d'école et déjà obsolète, c'est de l'apprentissage continue.

edit: même dans le cas d'ia orienté code, une fois ratissez les forums style stackoverflow, c'est compliqué d'aller plus loins

par contre, j'imagine dans le futur une fonctionnalité pour les entreprises permettant de donner à l'ia toute la base de code et doc technique de l'entreprise et s'entrainer dessus, ainsi l'ia aurait le contexte de l'entreprise et le coding standard. Ca serait déja une belle amélioration dans la qualité des réponses.
par exemple je lui demande comment me connecter une l'api d'un service interne, elle va me donner le code, comment m'y connecter (demander à Jean Jacque sur teams de me crée un compte machine avec token en lecture, ensuite de tester la connexion avec ce code et enfin la fonctionnalité que vous avez demandez)
4  0 
Avatar de vVDB.fr
Membre régulier https://www.developpez.com
Le 11/12/2024 à 17:33
Triste comme ces personnes peuvent fumer de la moquette !
Ils sont donc arrivé à faire une AI Générale !
Alors plus d'hallucinations, de mensonges, de biais ! Wahoo !!!
Cette AIG est capable d'évaluer la pertinence de ce qu'elle dit avec les sources ? De tester la robustesse des données de sa base d'intelligence ? D'en demander de supplémentaires car elle ne peut répondre a la question posée ? ...
Ah ! Non... Crottes !!!

Les IA des modèles actuels sont des perroquets scolastiques qui proposent le plus probable et normalement (malheureusement) incapables de produire une idée neuve par rapport à sa base d' apprentissage.
La connaissance encyclopédique n'est pas de l'intelligence, c'est juste bluffant.
Si cette iag fait de l'inférence, quelles sont les domaines mathématiques qu'elle aurait déjà épuisé ? Les trucs sympas qu'elle a démontré avec plus de finesse que l'humain ?
Altman sera mort avant que l'humanité le voit. Il est jeune Altman...
4  0 
Avatar de r0d
Expert éminent https://www.developpez.com
Le 30/12/2024 à 10:02
Citation Envoyé par Mat.M Voir le message
ça c'est un truc bien français la technophobie.
Et si un jour vous avez une pathologie et que votre médecin interroge un système d'I.A. pour établir un diagnostic afin de guérir rapidement ?
C'est un truc bien français de mépriser les français. Intéressante proposition récursive... J'ai l'impression que c'est dû au fait que nous nous croyons au centre du monde, un peu comme les américains: Non les français ne sont pas plus technophobes que les autres, mais il faudrait s'intéresser aux autres pour s'en rendre compte.
J'ai vécu dans plusieurs pays, et je peux t'assurer que l'immense majorité des poncifs sur les français sont faux.

Je ne suis pas technophobe, mais je suis critique.
De toutes façons, je pense qu'il y a quiproquo: Je critiquais l'utilisation des LLM, pas de l'IA en général.
4  0 
Avatar de Matthieu Vergne
Expert éminent https://www.developpez.com
Le 07/07/2025 à 22:15
Citation Envoyé par Artemus24 Voir le message
Si je prends le cas de ChatGPT, il se sert de l'internet comme base de données pour effectuée une recherche. Rien à voir avec un quelconque apprentissage. Il peut même retourner de fausses informations puisqu'il est incapable de comprendre le sens même de la question posée. C'est en cela que je dis que pour l'instant, l'IA est une fumisterie, car ce que l'on nous présente n'est pas une IA générative et n'a aucune capacité d'apprentissage, juste une recherche améliorée.
Si si, c'est de l'apprentissage, mais tu es tombé dans le piège marketing de l'IA. Ce que l'IA générative apprend, ce n'est pas le savoir que tu trouves sur internet. C'est comment écrire du contenu qui ressemble à ce que tu trouves sur internet. C'est très différent et ça éclaire beaucoup de choses.

ChatGPT, Mistral, Claude, Gemini, et des milliers d'autres LLM qu'on peut trouver sur Hugging Face, y compris des équivalents des modèles commerciaux précédents, sont bel et bien basé sur l'apprentissage. Quand tu fais une requête, le principe de base du LLM n'est pas de faire une recherche sur internet. Il ne l'utilise pas lors de ta requête. Le LLM a été entrainé auparavant sur le contenu internet, comme AlphaGo a été entrainé sur des parties existantes de Go avant de jouer ses matchs. Mais là où AlphaGo a appris à jouer au Go, les LLM apprennent à générer du texte humain : ce qui vient après "le chat a mangé la" est de toute évidence "souris", parce que c'est ça le plus probable dans un texte humain. Peu importe que ce soit vrai ou pas, c'est statistiquement le plus probable. Un LLM génère du texte cohérent, et non pas vrai, c'est fondamental à comprendre car c'est la raison pour laquelle il peut fournir de fausses informations. On appelle ça des illusions mais ça n'a rien de spécial : c'est la limite fondamentale d'un LLM. La ressemblance à du texte humain est tout ce qui compte, la vérité il ne la connais pas. Internet sert à l'entrainement, mais à l'usage il génère une réponse sur la base de ce qu'il en a retenu, sans l'utiliser à nouveau.

Maintenant les LLM peuvent être augmentés par différents outils, et pour comprendre comment ça fonctionne il faut comprendre que plus on donne de contexte et plus le LLM pourra générer une réponse orientée. Par exemple, si tu ajoute comme contexte "Dans un monde où les plus petits mangent les plus gros" ce qui vient après "le chat a mangé la" pourrais bien être autre chose que "souris", genre "vache", car ça ne serait pas cohérent avec ce qui a été écrit avant. Ainsi, apporter du contexte permet d'orienter la réponse pour que le LLM génère une réponse cohérente qui va dans le sens qui nous intéresse. Cela reste statistique, on n'aura pas forcément ce qu'on veut, mais les chances augmentent.

Une fois qu'on sait exploiter le contexte, on peut utiliser des outils du genre récupération de données sur internet. On les ajoute au contexte avant de demander de répondre. La réponse sera donc influencée par ce qu'on a ajouté au contexte. Toujours dans le but de générer du texte cohérent, et non pas vrai. Tu peux ajouter des pages Web, des PDFs, des images (pour les modèles qui savent les traiter) et autres données au format textuel (CSV, Markdown, XML, JSON, etc.). Si tu demandes "Décrit moi les caractéristiques d'un transistor BD777", il te sortira quelque chose qui ressemble à une description technique de transistor, mais si tu compares à la datasheet ça sera surement du pur bullshit. Si tu lui donnes la datasheet en contexte, la même question te retournera quelque chose de bien plus proche de la réalité, peut-être même parfaitement correct. Pas parce que c'est ce qui est vrai (il peut toujours sortir du bullshit) mais parce que c'est cohérent avec le contexte donné avec la requête.

Une fois qu'on a compris ça, on a compris qu'il ne faut jamais faire aveuglément confiance à un LLM. Il faut soit lui demander des trucs où on se fiche de l'aspect véridique (e.g. role play, création d'histoire, etc.) soit lui demander des trucs dont on sait pertinement qu'on passera derrière pour vérifier (ou un tiers de confiance, genre une suite de tests valides pour du code généré par IA). On peut être surpris de voir quelque chose qui semble fonctionner à la perfection, mais on n'est jamais à l'abri d'un dérapage complet.

Tout comme AlphaGo est très bon pour jouer au Go, les LLM sont très bon pour générer du texte cohérent. Mais comme on ne demandera pas à AlphaGo d'expliquer ses coups, on ne demandera pas au LLM de dire des choses factuellement vraies. Il n'en sont juste pas capables car pas entraînés pour ça. La phase de fine tuning qui vient après l'apprentissage oriente le type de discours du LLM, mais ça ne corrige pas complètement ses lacunes fondamentales.

À voir ce qu'il en sera avec ce que Yann Lecun nous sortira.
4  0 
Avatar de OuftiBoy
Membre éprouvé https://www.developpez.com
Le 16/12/2025 à 17:00
,

Citation Envoyé par Jon Shannow Voir le message
En théorie, et à une époque hélas révolue, j'aurais été entièrement d'accord. Aujourd'hui, je ne suis pas sûr que ce soit une bonne chose...
Il y a deux vieux adages qui sont toujours valable de nos jours...

1. On arrête pas le progrès.
2. Le progrès ne vaut que s'il est partager par tous.

Le 1 est inévitable, c'est dans la nature humaine, de comprendre ce qui lui échappe, d'explorer.
C'est le 2 qui pose soucis, car le "progrès" n'est pas "partager" véritablement, ni même son utilisation ni le bénéfice qu'on peut en retirer.

Parfois, avec le temps, ça se diffuse, mais il faut souvent bien trop de temps...

C'était ma petite réflexion du jour

BàV et Peace & Love.
4  0 
Avatar de Artemus24
Expert éminent sénior https://www.developpez.com
Le 19/12/2025 à 9:03
@ Gluups : cette compétition d'avirons, je la connais depuis le siècle dernier, avec comme compétiteur IBM, Bull et une société de service.
La suite, on la connait. Le plus drôle dans l'histoire est que ce genre de contexte existe réellement.
4  0