Des chercheurs affirment avoir mis au point un moyen d'exécuter plus efficacement les grands modèles de langage (LLM) en éliminant du processus la multiplication matricielle. Les coûts liés à la formation des modèles d'IA proviennent principalement des opérations de multiplication matricielle et il est naturel que les chercheurs tentent de l'éliminer complètement ou de le rendre plus efficace. En éliminant l'élément le plus coûteux, l'équipe a amélioré considérablement l'efficacité énergétique tout en maintenant les performances. Elle n'a eu besoin que de 13W, soit l'énergie nécessaire à l'alimentation d'une ampoule, pour faire fonctionner un modèle très performant.La multiplication matricielle (Matrix multiplication - MatMul) est aujourd'hui au cœur de la plupart des tâches de calcul des réseaux neuronaux. Ces opérations nécessitent une énorme puissance de calcul et les GPU de Nvidia sont particulièrement très performants pour les effectuer rapidement. Les GPU peuvent effectuer un grand nombre d'opérations de multiplication en parallèle. Mais les GPU coûtent de plus en plus cher et un seul fournisseur, Nvidia, contrôle environ 98 % du marché. En raison de prix des GPU, le coût informatique de la formation de modèles basés sur la MatMul devient chaque jour de plus en plus incontrôlable.
Par exemple, la formation de GPT-4 aurait coûté à OpenAI environ 100 millions de dollars. Un récent article de recherche intitulé "Scalable MatMul-free Language Modeling" décrit une approche révolutionnaire qui s'attaque de front à ce problème. L'équipe a étudié un moyen de former des modèles très performants sans faire appel à la MatMul. Les modèles sans MatMul sont de grands modèles de langage qui remplacent la MatMul par "des opérations plus simples" afin de réduire les coûts de calcul. L'approche permet de repenser fondamentalement les opérations des réseaux neuronaux qui sont actuellement accélérées par les GPU.
L'étude a été réalisée par des chercheurs de l'université de Californie à Santa Cruz, de l'université de Californie à Davis, de LuxiTech et de l'université de Soochow. Les résultats pourraient avoir de profondes répercussions sur l'impact environnemental et les coûts d'exploitation des systèmes d'IA. Le rapport indique que "les opérations MatMul peuvent être complètement éliminées des LLM tout en conservant de bonnes performances à l'échelle du milliard de paramètres". En outre, leur approche a également un impact sur la mémoire nécessaire à la formation d'un modèle de langage. Ce qui réduit davantage les coûts de formation.
En se débarrassant des opérations MatMul et en exécutant leur algorithme sur du matériel personnalisé, les chercheurs ont découvert qu'ils pouvaient faire fonctionner un modèle de langage à l'échelle d'un milliard de paramètres avec seulement 13 watts, ce qui équivaut à peu près à l'énergie nécessaire pour alimenter une ampoule électrique et est plus de 50 fois plus efficace que le matériel habituel. Même avec un algorithme réduit et une consommation d'énergie bien moindre, le nouveau modèle open source atteint les mêmes performances que les modèles de pointe tels que le LLM Llama de Meta, la société mère de Facebook.
Tous les modèles ayant servi de base à l'étude sont disponibles sur la plateforme HuggingFace. Vous pouvez les essayer en ligne ou localement en utilisant les bibliothèques de HuggingFace. Les chercheurs ont également fourni leur code sur GitHub, ce qui permet à d'autres personnes d'entraîner leurs modèles. Le résumé de l'article se lit comme suit :
La fin de cet article est réservée aux abonnés. Soutenez le Club Developpez.com en prenant un abonnement pour que nous puissions continuer à vous proposer des publications.