La multiplication matricielle (Matrix multiplication - MatMul) est aujourd'hui au cœur de la plupart des tâches de calcul des réseaux neuronaux. Ces opérations nécessitent une énorme puissance de calcul et les GPU de Nvidia sont particulièrement très performants pour les effectuer rapidement. Les GPU peuvent effectuer un grand nombre d'opérations de multiplication en parallèle. Mais les GPU coûtent de plus en plus cher et un seul fournisseur, Nvidia, contrôle environ 98 % du marché. En raison de prix des GPU, le coût informatique de la formation de modèles basés sur la MatMul devient chaque jour de plus en plus incontrôlable.
Par exemple, la formation de GPT-4 aurait coûté à OpenAI environ 100 millions de dollars. Un récent article de recherche intitulé "Scalable MatMul-free Language Modeling" décrit une approche révolutionnaire qui s'attaque de front à ce problème. L'équipe a étudié un moyen de former des modèles très performants sans faire appel à la MatMul. Les modèles sans MatMul sont de grands modèles de langage qui remplacent la MatMul par "des opérations plus simples" afin de réduire les coûts de calcul. L'approche permet de repenser fondamentalement les opérations des réseaux neuronaux qui sont actuellement accélérées par les GPU.
L'étude a été réalisée par des chercheurs de l'université de Californie à Santa Cruz, de l'université de Californie à Davis, de LuxiTech et de l'université de Soochow. Les résultats pourraient avoir de profondes répercussions sur l'impact environnemental et les coûts d'exploitation des systèmes d'IA. Le rapport indique que "les opérations MatMul peuvent être complètement éliminées des LLM tout en conservant de bonnes performances à l'échelle du milliard de paramètres". En outre, leur approche a également un impact sur la mémoire nécessaire à la formation d'un modèle de langage. Ce qui réduit davantage les coûts de formation.
En se débarrassant des opérations MatMul et en exécutant leur algorithme sur du matériel personnalisé, les chercheurs ont découvert qu'ils pouvaient faire fonctionner un modèle de langage à l'échelle d'un milliard de paramètres avec seulement 13 watts, ce qui équivaut à peu près à l'énergie nécessaire pour alimenter une ampoule électrique et est plus de 50 fois plus efficace que le matériel habituel. Même avec un algorithme réduit et une consommation d'énergie bien moindre, le nouveau modèle open source atteint les mêmes performances que les modèles de pointe tels que le LLM Llama de Meta, la société mère de Facebook.
Tous les modèles ayant servi de base à l'étude sont disponibles sur la plateforme HuggingFace. Vous pouvez les essayer en ligne ou localement en utilisant les bibliothèques de HuggingFace. Les chercheurs ont également fourni leur code sur GitHub, ce qui permet à d'autres personnes d'entraîner leurs modèles. Le résumé de l'article se lit comme suit :
Envoyé par Extrait de l'article de recherche
Ce qui permet au logiciel de l'équipe d'être facilement accessible et utile à toute personne souhaitant l'utiliser. Sur les GPU standards, l'équipe a constaté que son réseau neuronal consommait environ 10 fois moins de mémoire et fonctionnait environ 25 % plus rapidement que les autres modèles. Selon les chercheurs, la réduction de la quantité de mémoire nécessaire à l'exécution d'un puissant LLM pourrait permettre aux algorithmes de fonctionner à pleine capacité sur des appareils dotés d'une mémoire réduite, tels que les smartphones. Apple et d'autres fabricants de téléphones travaillent aussi pour atteindre cet objectif.
Dans le cadre de leur étude, l'équipe a remplacé les opérations MatMul par des opérations ternaires. Au lieu d'avoir des poids qui peuvent être n'importe quel nombre réel, ils sont contraints à seulement trois valeurs : -1, 0 ou 1. Les poids sont initialement formés en tant que valeurs de pleine précision, puis, au cours de la formation, ils sont quantifiés en valeurs ternaires à l'aide d'un processus appelé "quantification de la moyenne absente". Selon l'équipe, ce processus met à l'échelle la matrice de poids en fonction de sa valeur absolue moyenne, puis arrondit chaque élément à l'entier ternaire le plus proche (-1, 0 ou 1).
Cette simplification permet de remplacer les opérations MatMul par des additions et des soustractions. Par exemple, multiplier un nombre par -1 revient à l'annuler, multiplier par 0 donne 0 et multiplier par 1 laisse le nombre inchangé. La figure ci-dessus donne un aperçu des composants clés du modèle de langage MatMul-Free, y compris l'unité récurrente linéaire à grille MatMul-Free (MLGRU) et l'unité linéaire à grille MatMul-Free (GLU). La figure est divisée en plusieurs sections (du haut à gauche au bas à droite) :
- autoattention : Cette section montre comment le mécanisme traditionnel d'autoattention fonctionne avec les multiplications de matrices ;
- GRU linéaire sans MatMul : cette partie illustre l'architecture du MLGRU, en soulignant la manière dont il traite les séquences d'entrée en utilisant des opérations par éléments et des mécanismes de "gating" (contrôle) au lieu de MatMul ;
- UGL / UGL sans MatMul : cette section montre comment l'UGL mélange des informations à travers différentes dimensions des encastrements du modèle, en utilisant des poids ternaires pour éliminer MatMul ;
- multiplication matricielle vs accumulation ternaire mise à l'échelle : cette comparaison montre comment la multiplication matricielle standard est remplacée par l'accumulation ternaire échelonnée, ce qui simplifie les calculs ;
- norme RMS : cette section détaille l'opération RMSNorm, qui normalise les activations avant la quantification.
En poursuivant le développement, les chercheurs pensent pouvoir optimiser la technologie pour obtenir une efficacité énergétique encore plus grande. « Ces chiffres sont déjà très solides, mais il est très facile de les améliorer. Si nous sommes capables de faire cela avec 13 watts, imaginez ce que nous pourrions faire avec la puissance de calcul d'un centre de données entier. Nous disposons de toutes ces ressources, mais utilisons-les de manière efficace », a déclaré Eshraghian. L'article des chercheurs a été publié dans une version préliminaire dans la revue scientifique arXiv. Il n'a donc pas encore été évalué par des pairs.
Toutefois, les chercheurs (Rui-Jie Zhu, Yu Zhang, Ethan Sifferman, Tyler Sheaves, Yiqiao Wang, Dustin Richmond, Peng Zhou et Jason Eshraghian) affirment que leur travail remet en question le paradigme dominant selon lequel les opérations MatMul sont indispensables pour construire des modèles de langage performants. Ils affirment que leur approche pourrait rendre les modèles de langage de grande taille plus accessibles, plus efficaces et plus durables, en particulier pour le déploiement sur du matériel à ressources limitées comme les PC ou les smartphones, ainsi que d'autres équipements dotés d'une faible mémoire.
Sources : rapport de l'étude, MatMul-Free LM (1, 2)
Et vous ?
Quel est votre avis sur le sujet ?
Que pensez-vous de la suppression de la multiplication matricielle du processus de formation des modèles d'IA ?
L'étude constitue-t-elle une première étape vers une solution efficace et durable contre l'appétit énergétique de l'IA ?
L'étude ouvre-t-elle la voie à des modèles ultras performants qui engloutissent moins d'énergie, de mémoire et d'argent ?
Voir aussi
Les progrès de la multiplication matricielle pourraient conduire à des modèles d'IA plus rapides et plus efficaces, selon des chercheurs
L'appétit énergétique de l'IA met à rude épreuve le réseau électrique des États-Unis qui n'était pas préparé à une augmentation subite de la charge, laissant l'industrie à la recherche de solutions miracles
OpenAI serait en pourparlers avec Helion Energy pour acheter de grandes quantités d'énergie de fusion pour les centres de données après que Sam Altman ait investi 375 millions de dollars dans Helion