Des chercheurs bouleversent le statu quo sur la formation des LLM en éliminant du processus la multiplication matricielle,

Ce qui réduit les coûts liés aux exigences élevées en matière de calcul et de mémoire

Le 26 juin 2024 à 11:21, par Mathis Lucas

186PARTAGES

Des chercheurs affirment avoir mis au point un moyen d'exécuter plus efficacement les grands modèles de langage (LLM) en éliminant du processus la multiplication matricielle. Les coûts liés à la formation des modèles d'IA proviennent principalement des opérations de multiplication matricielle et il est naturel que les chercheurs tentent de l'éliminer complètement ou de le rendre plus efficace. En éliminant l'élément le plus coûteux, l'équipe a amélioré considérablement l'efficacité énergétique tout en maintenant les performances. Elle n'a eu besoin que de 13W, soit l'énergie nécessaire à l'alimentation d'une ampoule, pour faire fonctionner un modèle très performant.

La multiplication matricielle (Matrix multiplication - MatMul) est aujourd'hui au cœur de la plupart des tâches de calcul des réseaux neuronaux. Ces opérations nécessitent une énorme puissance de calcul et les GPU de Nvidia sont particulièrement très performants pour les effectuer rapidement. Les GPU peuvent effectuer un grand nombre d'opérations de multiplication en parallèle. Mais les GPU coûtent de plus en plus cher et un seul fournisseur, Nvidia, contrôle environ 98 % du marché. En raison de prix des GPU, le coût informatique de la formation de modèles basés sur la MatMul devient chaque jour de plus en plus incontrôlable.

Par exemple, la formation de GPT-4 aurait coûté à OpenAI environ 100 millions de dollars. Un récent article de recherche intitulé "Scalable MatMul-free Language Modeling" décrit une approche révolutionnaire qui s'attaque de front à ce problème. L'équipe a étudié un moyen de former des modèles très performants sans faire appel à la MatMul. Les modèles sans MatMul sont de grands modèles de langage qui remplacent la MatMul par "des opérations plus simples" afin de réduire les coûts de calcul. L'approche permet de repenser fondamentalement les opérations des réseaux neuronaux qui sont actuellement accélérées par les GPU.

L'étude a été réalisée par des chercheurs de l'université de Californie à Santa Cruz, de l'université de Californie à Davis, de LuxiTech et de l'université de Soochow. Les résultats pourraient avoir de profondes répercussions sur l'impact environnemental et les coûts d'exploitation des systèmes d'IA. Le rapport indique que "les opérations MatMul peuvent être complètement éliminées des LLM tout en conservant de bonnes performances à l'échelle du milliard de paramètres". En outre, leur approche a également un impact sur la mémoire nécessaire à la formation d'un modèle de langage. Ce qui réduit davantage les coûts de formation.

En se débarrassant des opérations MatMul et en exécutant leur algorithme sur du matériel personnalisé, les chercheurs ont découvert qu'ils pouvaient faire fonctionner un modèle de langage à l'échelle d'un milliard de paramètres avec seulement 13 watts, ce qui équivaut à peu près à l'énergie nécessaire pour alimenter une ampoule électrique et est plus de 50 fois plus efficace que le matériel habituel. Même avec un algorithme réduit et une consommation d'énergie bien moindre, le nouveau modèle open source atteint les mêmes performances que les modèles de pointe tels que le LLM Llama de Meta, la société mère de Facebook.

Tous les modèles ayant servi de base à l'étude sont disponibles sur la plateforme HuggingFace. Vous pouvez les essayer en ligne ou localement en utilisant les bibliothèques de HuggingFace. Les chercheurs ont également fourni leur code sur GitHub, ce qui permet à d'autres personnes d'entraîner leurs modèles. Le résumé de l'article se lit comme suit :

Envoyé par Extrait de l'article de recherche

La multiplication matricielle (MatMul) domine généralement le coût de calcul global des grands modèles de langage. Ce coût ne fait qu'augmenter au fur et à mesure que les LLM s'étendent à des dimensions d'intégration et à des longueurs de contexte plus importantes. Dans ce travail, nous montrons que les opérations MatMul peuvent être complètement éliminées des LLM tout en conservant de bonnes performances à l'échelle du milliard de paramètres.

Nos expériences montrent que les modèles sans MatMul que nous proposons atteignent des performances comparables à celles des transformateurs de pointe qui nécessitent beaucoup plus de mémoire pendant l'inférence à une échelle allant jusqu'à au moins 2,7 milliards de paramètres. Nous étudions les lois de mise à l'échelle et constatons que l'écart de performance entre nos modèles sans MatMul et les transformateurs de pleine précision se réduit au fur et à mesure que la taille du modèle augmente.

Nous fournissons également une implémentation GPU efficace de ce modèle qui réduit l'utilisation de la mémoire jusqu'à 61% par rapport à une base non optimisée pendant l'apprentissage. En utilisant un noyau optimisé pendant l'inférence, la consommation de mémoire de notre modèle peut être réduite de plus de 10 fois par rapport aux modèles non optimisés.

Pour quantifier correctement l'efficacité de notre architecture, nous construisons une solution matérielle personnalisée sur un FPGA qui exploite des opérations légères au-delà de ce que les GPU sont capables de faire. Nous avons traité des modèles à l'échelle du milliard de paramètres à 13W au-delà du débit lisible par l'homme, rapprochant ainsi les LLM d'une efficacité comparable à celle du cerveau.

Ce travail montre non seulement jusqu'où les LLM peuvent être dépouillés tout en restant efficaces, mais indique également les types d'opérations pour lesquelles les futurs accélérateurs devraient être optimisés dans le traitement de la prochaine génération de LLM légers.

« Nous avons obtenu les mêmes performances à un coût bien moindre. Tout ce que nous avions à faire, c'était de modifier fondamentalement le mode de fonctionnement des réseaux neuronaux. Nous sommes ensuite allés plus loin en construisant du matériel personnalisé », a déclaré Jason Eshraghian, professeur adjoint d'ingénierie électrique et informatique à la Baskin School of Engineering (une division de l'université de Californie à Santa Cruz) et auteur principal de l'article. L'équipe a conçu son réseau neuronal pour qu'il fonctionne sur des GPU, qui sont devenus une denrée presque indispensable dans la formation de l'IA.

Ce qui permet au logiciel de l'équipe d'être facilement accessible et utile à toute personne souhaitant l'utiliser. Sur les GPU standards, l'équipe a constaté que son réseau neuronal consommait environ 10 fois moins de mémoire et fonctionnait environ 25 % plus rapidement que les autres modèles. Selon les chercheurs, la réduction de la quantité de mémoire nécessaire à l'exécution d'un puissant LLM pourrait permettre aux algorithmes de fonctionner à pleine capacité sur des appareils dotés d'une mémoire réduite, tels que les smartphones. Apple et d'autres fabricants de téléphones travaillent aussi pour atteindre cet objectif.

Dans le cadre de leur étude, l'équipe a remplacé les opérations MatMul par des opérations ternaires. Au lieu d'avoir des poids qui peuvent être n'importe quel nombre réel, ils sont contraints à seulement trois valeurs : -1, 0 ou 1. Les poids sont initialement formés en tant que valeurs de pleine précision, puis, au cours de la formation, ils sont quantifiés en valeurs ternaires à l'aide d'un processus appelé "quantification de la moyenne absente". Selon l'équipe, ce processus met à l'échelle la matrice de poids en fonction de sa valeur absolue moyenne, puis arrondit chaque élément à l'entier ternaire le plus proche (-1, 0 ou 1).

Cette simplification permet de remplacer les opérations MatMul par des additions et des soustractions. Par exemple, multiplier un nombre par -1 revient à l'annuler, multiplier par 0 donne 0 et multiplier par 1 laisse le nombre inchangé. La figure ci-dessus donne un aperçu des composants clés du modèle de langage MatMul-Free, y compris l'unité récurrente linéaire à grille MatMul-Free (MLGRU) et l'unité linéaire à grille MatMul-Free (GLU). La figure est divisée en plusieurs sections (du haut à gauche au bas à droite) :

[LIST][*]autoattention : Cette section montre comment le mécanisme traditionnel d'autoattention fonctionne avec les multiplications de matrices ;[*]GRU...

La fin de cet article est réservée aux abonnés. Soutenez le Club Developpez.com en prenant un abonnement pour que nous puissions continuer à vous proposer des publications.

Une erreur dans cette actualité ? Signalez-nous-la !

Votre nom : Votre e-mail :

Décrivez l'erreur que vous souhaitez porter à notre connaissance :

Identifiez-vous

Créer un compte

Des chercheurs bouleversent le statu quo sur la formation des LLM en éliminant du processus la multiplication matricielle,

Ce qui réduit les coûts liés aux exigences élevées en matière de calcul et de mémoire

Identifiant
Mot de passe

Mot de passe oublié ?

Identifiez-vous

Créer un compte

Des chercheurs bouleversent le statu quo sur la formation des LLM en éliminant du processus la multiplication matricielle, Ce qui réduit les coûts liés aux exigences élevées en matière de calcul et de mémoire

Des chercheurs bouleversent le statu quo sur la formation des LLM en éliminant du processus la multiplication matricielle,

Ce qui réduit les coûts liés aux exigences élevées en matière de calcul et de mémoire