Le directeur technique de Microsoft affirme que les lois de mise à l'échelle des LLM continueront à stimuler les progrès de l'IA,

Réfutant les déclarations selon lesquelles les LLM ont atteint un plateau

Le 16 juillet 2024 à 11:11, par Mathis Lucas

54PARTAGES

Le directeur technique de Microsoft affirme que les lois de mise à l'échelle des LLM continueront à stimuler les progrès de l'IA
réfutant les déclarations selon lesquelles les LLM ont atteint un plateau

Le directeur technique de Microsoft, Kevin Scott, ne partage pas les craintes selon lesquelles les lois de mises à l'échelle des grands modèles de langage (LLM) ont atteint leurs limites. Il affirme sa foi dans ces lois et se dit optimiste quant aux futures itérations des modèles et à leur capacité à améliorer les domaines dans lesquels les modèles actuels ont des difficultés. Cette perspective contraste avec l'idée que le développement des LLM pourrait atteindre des rendements décroissants. La position de Microsoft s'aligne sur ses investissements considérables dans l'IA, notamment à travers son partenariat pluriannuel de plusieurs milliards de dollars avec OpenAI.

Kevin Scott est récemment intervenu dans le podcast Training Data de Sequoia Capital. Le directeur technique de Microsoft a saisi l'occasion pour réitérer sa conviction de la valeur durable des lois de mise à l'échelle des LLM. Il reste optimiste quant au potentiel de progrès continus. Il a répondu au débat en cours en déclarant que l'idée des lois d'échelle est toujours pertinente dans le domaine de l'IA. Les discussions tournent en effet sur la question suivante : les LLM continueront-ils à s'améliorer si nous leur donnons plus de puissance de calcul et plus de données ? Le cadre de Microsoft a répondu par l'affirmative.

« Malgré ce que d'autres pensent, nous n'en sommes pas à des rendements marginaux décroissants en ce qui concerne la mise à l'échelle. J'essaie d'aider les gens à comprendre qu'il existe une exponentielle et que, malheureusement, on ne peut l'observer que tous les deux ans parce qu'il faut du temps pour construire des superordinateurs et former des modèles à partir de ces derniers », a déclaré Scott. Le cadre de Microsoft a joué un rôle clé dans la conclusion de l'accord de partage de technologie de plusieurs milliards de dollars entre Microsoft et OpenAI. À ce jour, le montant exact de l'accord n'est pas connu.

Les lois de mise à l'échelle des LLM ont été proposées par les chercheurs d'OpenAI en 2020. Elles stipulent que l'efficacité des modèles de langage augmente de manière proportionnelle à la taille du modèle. En d'autres termes, la performance des modèles de langage tend à s'améliorer de "manière prévisible" à mesure que les modèles deviennent plus grands (plus de paramètres), sont formés sur plus de données et ont accès à plus de puissance de calcul (compute). En outre, les modèles plus grands sont censés être plus efficaces et plus rapides, mais aussi générer beaucoup moins d'erreurs que les modèles plus petits.

L'idée est que la simple augmentation de la taille des LLM et des données de formation puisse conduire à des améliorations significatives des capacités de l'IA sans nécessairement nécessiter des percées algorithmiques fondamentales. Depuis, d'autres chercheurs ont remis en question l'idée de la persistance des lois de mise à l'échelle dans le temps, mais le concept reste une pierre angulaire de la philosophie d'OpenAI en matière de développement de l'IA. Les critiques affirment que l'optimisation du processus de formation des modèles peut réduire les besoins en données et en puissance de calcul, ainsi que les coûts de l'IA.

Les entreprises qui font la une des journaux renforcent cette tendance. « Le système que nous venons de déployer est, en matière d'échelle, à peu près aussi gros qu'une baleine », a déclaré Scott à propos du superordinateur qui alimente ChatGPT-5. Et il s'avère que l'on peut construire beaucoup d'IA avec un supercalculateur de la taille d'une baleine. Scott discutait de la dernière version du chatbot d'OpenAI lors de l'événement Build organisé par l'entreprise à la fin du mois de mai. Mais de plus en plus d'experts affirment que le plus gros n'est pas toujours le meilleur. Cela dépend en effet de votre point de vue.

Pour les développeurs de LLM, l'échelle est un avantage dans la plupart des cas. Mais comme les entreprises cherchent à faire la part des choses entre le battage médiatique et la valeur ajoutée de l'IA, il n'est pas certain que des modèles d'IA de plus en plus grands aboutissent toujours à de meilleures solutions pour les entreprises. « À l'avenir, nous n'aurons pas besoin de modèles 100 fois supérieurs à ceux dont nous disposons aujourd'hui pour extraire la majeure partie de la valeur », a déclaré Kate Soule, directrice du programme de recherche sur l'IA générative d'IBM, dans un épisode du podcast Mixture of Experts d'IBM.

Si ces lois sont utiles aux fournisseurs de LLM qui s'efforcent de créer une intelligence artificielle générale (AGI), de nombreux experts affirment qu'il est loin d'être évident que les entreprises aient besoin de cette échelle d'investissement ou d'IA pour en tirer la plus grande valeur. « Ce n'est pas parce que vous connaissez le moyen le plus rentable de former un modèle d'une taille de l'ordre du nième degré que les avantages réels que vous tirerez de ce modèle justifieront les coûts. C'est une question totalement différente à laquelle les lois de mise à l'échelle ne répondent pas », a expliqué le cadre d'IBM lors de l'entretien.

La position de Scott est tout à fait opposée à celle de certains critiques de l'IA qui pensent que la croissance s'est arrêtée au GPT-4 et à d'autres modèles similaires. Selon certains critiques, les derniers modèles (dont Gemini 1.5 Pro de Google et Claude Opus d'Anthropic) n'ont pas apporté d'améliorations significatives par rapport aux modèles précédents. Gary Marcus, critique d'IA, a souligné ce point de vue en avril, mettant en doute l'absence d'avancées significative depuis la sortie de GPT-4. Il écrivait : « nous savons tous que GPT-3 était bien meilleur que GPT-2. Et nous savons tous que GPT-4 était bien meilleur que GPT-3 ».

« Mais que s'est-il passé depuis ? », se demandait-il. La position de Scott suggère que les géants de la technologie comme Microsoft se sentent encore justifiés d'investir massivement dans des modèles d'IA beaucoup plus grands, en pariant sur des percées continues plutôt que sur l'atteinte d'un plateau de capacités. Compte tenu de l'investissement de Microsoft dans OpenAI et de la forte commercialisation de ses propres fonctionnalités d'IA Microsoft Copilot, l'entreprise a tout intérêt à maintenir la perception d'un progrès continu, même si la technologie stagne. Copilot fait toutefois l'objet de critiques dans la communauté.

Ed Zitron, critique fréquent de l'IA, a récemment écrit dans un billet sur son blogue sarcastique : « l'une des défenses de l'investissement continu dans l'IA générative est qu'OpenAI a quelque chose que nous ne connaissons pas. Une grande technologie secrète et sexy qui brisera éternellement les os de tous ceux qui la détestent. Cependant, j'ai un contrepoint : "non, ce n'est pas le cas" ». Malgré les critiques, Scott reste optimiste quant à la possibilité de futures percées. Il reconnaît toutefois le défi que représente la rareté des données dans ce domaine, car il faut souvent des années pour développer de nouveaux modèles.

Scott s'est dit convaincu que les futures itérations montreront des améliorations. « Le prochain échantillon arrive, et je ne peux pas vous dire quand ni prédire exactement quelle sera sa qualité, mais il sera presque certainement meilleur pour les choses qui sont fragiles à l'heure actuelle, où vous vous dites, oh mon dieu, c'est un peu trop cher, ou un peu trop fragile, pour que je puisse l'utiliser », a déclaré Scott lors de son passage dans le podcast Training Data.

« Tout cela s'améliorera. Les choses deviendront moins chères et moins fragiles. Et des choses plus compliquées deviendront possibles. C'est l'histoire de chaque génération de ces modèles au fur et à mesure que nous les développons », a ajouté le cadre de Microsoft.

Et vous ?

Quel est votre avis sur le sujet ?

Que pensez-vous des lois de mise à l'échelle des grands modèles de langage ? Ont-elles atteint leurs limites ?

Pourquoi les entreprises continuent-elles d'investir autant d'argent et de ressources dans les LLM toujours plus grands ?

Les modèles plus grands sont-ils plus sûr et plus fiables comme le prétendent les entreprises comme Microsoft ?

Voir aussi

Des chercheurs bouleversent le statu quo sur la formation des LLM en éliminant du processus la multiplication matricielle, ce qui réduit les coûts liés aux exigences élevées en matière de calcul et de mémoire

L'IA semble s'approcher rapidement d'un mur où elle ne peut pas devenir plus intelligente : l'IA sera-t-elle à court de données ? Limites de la mise à l'échelle des LLM sur les données générées par l'homme

Le PDG d'OpenAI estime que l'approche actuelle de l'IA va bientôt atteindre ses limites, la mise à l'échelle des modèles LLM cessera d'apporter des améliorations à l'IA, selon lui

Vous avez lu gratuitement 541 articles depuis plus d'un an.
Soutenez le club developpez.com en souscrivant un abonnement pour que nous puissions continuer à vous proposer des publications.

Une erreur dans cette actualité ? Signalez-nous-la !

Votre nom : Votre e-mail :

Décrivez l'erreur que vous souhaitez porter à notre connaissance :

Identifiez-vous

Créer un compte

Le directeur technique de Microsoft affirme que les lois de mise à l'échelle des LLM continueront à stimuler les progrès de l'IA,

Réfutant les déclarations selon lesquelles les LLM ont atteint un plateau

Identifiant
Mot de passe

Mot de passe oublié ?

Identifiez-vous

Créer un compte

Le directeur technique de Microsoft affirme que les lois de mise à l'échelle des LLM continueront à stimuler les progrès de l'IA, Réfutant les déclarations selon lesquelles les LLM ont atteint un plateau

Le directeur technique de Microsoft affirme que les lois de mise à l'échelle des LLM continueront à stimuler les progrès de l'IA,

Réfutant les déclarations selon lesquelles les LLM ont atteint un plateau