IdentifiantMot de passe
Loading...
Mot de passe oublié ?Je m'inscris ! (gratuit)

Vous êtes nouveau sur Developpez.com ? Créez votre compte ou connectez-vous afin de pouvoir participer !

Vous devez avoir un compte Developpez.com et être connecté pour pouvoir participer aux discussions.

Vous n'avez pas encore de compte Developpez.com ? Créez-en un en quelques instants, c'est entièrement gratuit !

Si vous disposez déjà d'un compte et qu'il est bien activé, connectez-vous à l'aide du formulaire ci-dessous.

Identifiez-vous
Identifiant
Mot de passe
Mot de passe oublié ?
Créer un compte

L'inscription est gratuite et ne vous prendra que quelques instants !

Je m'inscris !

Des chercheurs bouleversent le statu quo sur la formation des LLM en éliminant du processus la multiplication matricielle,
Ce qui réduit les coûts liés aux exigences élevées en matière de calcul et de mémoire

Le , par Mathis Lucas

27PARTAGES

15  0 
Des chercheurs affirment avoir mis au point un moyen d'exécuter plus efficacement les grands modèles de langage (LLM) en éliminant du processus la multiplication matricielle. Les coûts liés à la formation des modèles d'IA proviennent principalement des opérations de multiplication matricielle et il est naturel que les chercheurs tentent de l'éliminer complètement ou de le rendre plus efficace. En éliminant l'élément le plus coûteux, l'équipe a amélioré considérablement l'efficacité énergétique tout en maintenant les performances. Elle n'a eu besoin que de 13W, soit l'énergie nécessaire à l'alimentation d'une ampoule, pour faire fonctionner un modèle très performant.

La multiplication matricielle (Matrix multiplication - MatMul) est aujourd'hui au cœur de la plupart des tâches de calcul des réseaux neuronaux. Ces opérations nécessitent une énorme puissance de calcul et les GPU de Nvidia sont particulièrement très performants pour les effectuer rapidement. Les GPU peuvent effectuer un grand nombre d'opérations de multiplication en parallèle. Mais les GPU coûtent de plus en plus cher et un seul fournisseur, Nvidia, contrôle environ 98 % du marché. En raison de prix des GPU, le coût informatique de la formation de modèles basés sur la MatMul devient chaque jour de plus en plus incontrôlable.

Par exemple, la formation de GPT-4 aurait coûté à OpenAI environ 100 millions de dollars. Un récent article de recherche intitulé "Scalable MatMul-free Language Modeling" décrit une approche révolutionnaire qui s'attaque de front à ce problème. L'équipe a étudié un moyen de former des modèles très performants sans faire appel à la MatMul. Les modèles sans MatMul sont de grands modèles de langage qui remplacent la MatMul par "des opérations plus simples" afin de réduire les coûts de calcul. L'approche permet de repenser fondamentalement les opérations des réseaux neuronaux qui sont actuellement accélérées par les GPU.


L'étude a été réalisée par des chercheurs de l'université de Californie à Santa Cruz, de l'université de Californie à Davis, de LuxiTech et de l'université de Soochow. Les résultats pourraient avoir de profondes répercussions sur l'impact environnemental et les coûts d'exploitation des systèmes d'IA. Le rapport indique que "les opérations MatMul peuvent être complètement éliminées des LLM tout en conservant de bonnes performances à l'échelle du milliard de paramètres". En outre, leur approche a également un impact sur la mémoire nécessaire à la formation d'un modèle de langage. Ce qui réduit davantage les coûts de formation.

En se débarrassant des opérations MatMul et en exécutant leur algorithme sur du matériel personnalisé, les chercheurs ont découvert qu'ils pouvaient faire fonctionner un modèle de langage à l'échelle d'un milliard de paramètres avec seulement 13 watts, ce qui équivaut à peu près à l'énergie nécessaire pour alimenter une ampoule électrique et est plus de 50 fois plus efficace que le matériel habituel. Même avec un algorithme réduit et une consommation d'énergie bien moindre, le nouveau modèle open source atteint les mêmes performances que les modèles de pointe tels que le LLM Llama de Meta, la société mère de Facebook.

Tous les modèles ayant servi de base à l'étude sont disponibles sur la plateforme HuggingFace. Vous pouvez les essayer en ligne ou localement en utilisant les bibliothèques de HuggingFace. Les chercheurs ont également fourni leur code sur GitHub, ce qui permet à d'autres personnes d'entraîner leurs modèles. Le résumé de l'article se lit comme suit :

Citation Envoyé par Extrait de l'article de recherche


La multiplication matricielle (MatMul) domine généralement le coût de calcul global des grands modèles de langage. Ce coût ne fait qu'augmenter au fur et à mesure que les LLM s'étendent à des dimensions d'intégration et à des longueurs de contexte plus importantes. Dans ce travail, nous montrons que les opérations MatMul peuvent être complètement éliminées des LLM tout en conservant de bonnes performances à l'échelle du milliard de paramètres.

Nos expériences montrent que les modèles sans MatMul que nous proposons atteignent des performances comparables à celles des transformateurs de pointe qui nécessitent beaucoup plus de mémoire pendant l'inférence à une échelle allant jusqu'à au moins 2,7 milliards de paramètres. Nous étudions les lois de mise à l'échelle et constatons que l'écart de performance entre nos modèles sans MatMul et les transformateurs de pleine précision se réduit au fur et à mesure que la taille du modèle augmente.

Nous fournissons également une implémentation GPU efficace de ce modèle qui réduit l'utilisation de la mémoire jusqu'à 61% par rapport à une base non optimisée pendant l'apprentissage. En utilisant un noyau optimisé pendant l'inférence, la consommation de mémoire de notre modèle peut être réduite de plus de 10 fois par rapport aux modèles non optimisés.

Pour quantifier correctement l'efficacité de notre architecture, nous construisons une solution matérielle personnalisée sur un FPGA qui exploite des opérations légères au-delà de ce que les GPU sont capables de faire. Nous avons traité des modèles à l'échelle du milliard de paramètres à 13W au-delà du débit lisible par l'homme, rapprochant ainsi les LLM d'une efficacité comparable à celle du cerveau.

Ce travail montre non seulement jusqu'où les LLM peuvent être dépouillés tout en restant efficaces, mais indique également les types d'opérations pour lesquelles les futurs accélérateurs devraient être optimisés dans le traitement de la prochaine génération de LLM légers.

« Nous avons obtenu les mêmes performances à un coût bien moindre. Tout ce que nous avions à faire, c'était de modifier fondamentalement le mode de fonctionnement des réseaux neuronaux. Nous sommes ensuite allés plus loin en construisant du matériel personnalisé », a déclaré Jason Eshraghian, professeur adjoint d'ingénierie électrique et informatique à la Baskin School of Engineering (une division de l'université de Californie à Santa Cruz) et auteur principal de l'article. L'équipe a conçu son réseau neuronal pour qu'il fonctionne sur des GPU, qui sont devenus une denrée presque indispensable dans la formation de l'IA.


Ce qui permet au logiciel de l'équipe d'être facilement accessible et utile à toute personne souhaitant l'utiliser. Sur les GPU standards, l'équipe a constaté que son réseau neuronal consommait environ 10 fois moins de mémoire et fonctionnait environ 25 % plus rapidement que les autres modèles. Selon les chercheurs, la réduction de la quantité de mémoire nécessaire à l'exécution d'un puissant LLM pourrait permettre aux algorithmes de fonctionner à pleine capacité sur des appareils dotés d'une mémoire réduite, tels que les smartphones. Apple et d'autres fabricants de téléphones travaillent aussi pour atteindre cet objectif.

Dans le cadre de leur étude, l'équipe a remplacé les opérations MatMul par des opérations ternaires. Au lieu d'avoir des poids qui peuvent être n'importe quel nombre réel, ils sont contraints à seulement trois valeurs : -1, 0 ou 1. Les poids sont initialement formés en tant que valeurs de pleine précision, puis, au cours de la formation, ils sont quantifiés en valeurs ternaires à l'aide d'un processus appelé "quantification de la moyenne absente". Selon l'équipe, ce processus met à l'échelle la matrice de poids en fonction de sa valeur absolue moyenne, puis arrondit chaque élément à l'entier ternaire le plus proche (-1, 0 ou 1).

Cette simplification permet de remplacer les opérations MatMul par des additions et des soustractions. Par exemple, multiplier un nombre par -1 revient à l'annuler, multiplier par 0 donne 0 et multiplier par 1 laisse le nombre inchangé. La figure ci-dessus donne un aperçu des composants clés du modèle de langage MatMul-Free, y compris l'unité récurrente linéaire à grille MatMul-Free (MLGRU) et l'unité linéaire à grille MatMul-Free (GLU). La figure est divisée en plusieurs sections (du haut à gauche au bas à droite) :

  • autoattention : Cette section montre comment le mécanisme traditionnel d'autoattention fonctionne avec les multiplications de matrices ;
  • GRU linéaire sans MatMul : cette partie illustre l'architecture du MLGRU, en soulignant la manière dont il traite les séquences d'entrée en utilisant des opérations par éléments et des mécanismes de "gating" (contrôle) au lieu de MatMul ;
  • UGL / UGL sans MatMul : cette section montre comment l'UGL mélange des informations à travers différentes dimensions des encastrements du modèle, en utilisant des poids ternaires pour éliminer MatMul ;
  • multiplication matricielle vs accumulation ternaire mise à l'échelle : cette comparaison montre comment la multiplication matricielle standard est remplacée par l'accumulation ternaire échelonnée, ce qui simplifie les calculs ;
  • norme RMS : cette section détaille l'opération RMSNorm, qui normalise les activations avant la quantification.


En poursuivant le développement, les chercheurs pensent pouvoir optimiser la technologie pour obtenir une efficacité énergétique encore plus grande. « Ces chiffres sont déjà très solides, mais il est très facile de les améliorer. Si nous sommes capables de faire cela avec 13 watts, imaginez ce que nous pourrions faire avec la puissance de calcul d'un centre de données entier. Nous disposons de toutes ces ressources, mais utilisons-les de manière efficace », a déclaré Eshraghian. L'article des chercheurs a été publié dans une version préliminaire dans la revue scientifique arXiv. Il n'a donc pas encore été évalué par des pairs.

Toutefois, les chercheurs (Rui-Jie Zhu, Yu Zhang, Ethan Sifferman, Tyler Sheaves, Yiqiao Wang, Dustin Richmond, Peng Zhou et Jason Eshraghian) affirment que leur travail remet en question le paradigme dominant selon lequel les opérations MatMul sont indispensables pour construire des modèles de langage performants. Ils affirment que leur approche pourrait rendre les modèles de langage de grande taille plus accessibles, plus efficaces et plus durables, en particulier pour le déploiement sur du matériel à ressources limitées comme les PC ou les smartphones, ainsi que d'autres équipements dotés d'une faible mémoire.

Sources : rapport de l'étude, MatMul-Free LM (1, 2)

Et vous ?

Quel est votre avis sur le sujet ?
Que pensez-vous de la suppression de la multiplication matricielle du processus de formation des modèles d'IA ?
L'étude constitue-t-elle une première étape vers une solution efficace et durable contre l'appétit énergétique de l'IA ?
L'étude ouvre-t-elle la voie à des modèles ultras performants qui engloutissent moins d'énergie, de mémoire et d'argent ?

Voir aussi

Les progrès de la multiplication matricielle pourraient conduire à des modèles d'IA plus rapides et plus efficaces, selon des chercheurs

L'appétit énergétique de l'IA met à rude épreuve le réseau électrique des États-Unis qui n'était pas préparé à une augmentation subite de la charge, laissant l'industrie à la recherche de solutions miracles

OpenAI serait en pourparlers avec Helion Energy pour acheter de grandes quantités d'énergie de fusion pour les centres de données après que Sam Altman ait investi 375 millions de dollars dans Helion

Une erreur dans cette actualité ? Signalez-nous-la !

Avatar de Fluxgraveon
Membre habitué https://www.developpez.com
Le 27/06/2024 à 9:43
Mmm, un pas intéressant (optimisez la simplification) pour d'autres interactions ("U.S.U.L".
0  1 
Avatar de Fluxgraveon
Membre habitué https://www.developpez.com
Le 01/07/2024 à 11:38
Pour approfondir :
Le parasite autoréflexif ( depuis "échopraxie", Peter Watts) n'est qu'un reflet de ce qui nous fonde.
Le parasitage autoréflexif de la pensée n'est donc qu'un artefact (phénomène créé par des conditions expérimentales), une aberration dans le champ de la pensée, qui est au départ synergique et médiatrice (émergence au sein d'un agrégat).
Merci de garder vos pouces pour l'arène.
0  1