IdentifiantMot de passe
Loading...
Mot de passe oublié ?Je m'inscris ! (gratuit)

Vous êtes nouveau sur Developpez.com ? Créez votre compte ou connectez-vous afin de pouvoir participer !

Vous devez avoir un compte Developpez.com et être connecté pour pouvoir participer aux discussions.

Vous n'avez pas encore de compte Developpez.com ? Créez-en un en quelques instants, c'est entièrement gratuit !

Si vous disposez déjà d'un compte et qu'il est bien activé, connectez-vous à l'aide du formulaire ci-dessous.

Identifiez-vous
Identifiant
Mot de passe
Mot de passe oublié ?
Créer un compte

L'inscription est gratuite et ne vous prendra que quelques instants !

Je m'inscris !

Des chercheurs bouleversent le statu quo sur la formation des LLM en éliminant du processus la multiplication matricielle,
Ce qui réduit les coûts liés aux exigences élevées en matière de calcul et de mémoire

Le , par Mathis Lucas

287PARTAGES

15  0 
Des chercheurs affirment avoir mis au point un moyen d'exécuter plus efficacement les grands modèles de langage (LLM) en éliminant du processus la multiplication matricielle. Les coûts liés à la formation des modèles d'IA proviennent principalement des opérations de multiplication matricielle et il est naturel que les chercheurs tentent de l'éliminer complètement ou de le rendre plus efficace. En éliminant l'élément le plus coûteux, l'équipe a amélioré considérablement l'efficacité énergétique tout en maintenant les performances. Elle n'a eu besoin que de 13W, soit l'énergie nécessaire à l'alimentation d'une ampoule, pour faire fonctionner un modèle très performant.

La multiplication matricielle (Matrix multiplication - MatMul) est aujourd'hui au cœur de la plupart des tâches de calcul des réseaux neuronaux. Ces opérations nécessitent une énorme puissance de calcul et les GPU de Nvidia sont particulièrement très performants pour les effectuer rapidement. Les GPU peuvent effectuer un grand nombre d'opérations de multiplication en parallèle. Mais les GPU coûtent de plus en plus cher et un seul fournisseur, Nvidia, contrôle environ 98 % du marché. En raison de prix des GPU, le coût informatique de la formation de modèles basés sur la MatMul devient chaque jour de plus en plus incontrôlable.

Par exemple, la formation de GPT-4 aurait coûté à OpenAI environ 100 millions de dollars. Un récent article de recherche intitulé "Scalable MatMul-free Language Modeling" décrit une approche révolutionnaire qui s'attaque de front à ce problème. L'équipe a étudié un moyen de former des modèles très performants sans faire appel à la MatMul. Les modèles sans MatMul sont de grands modèles de langage qui remplacent la MatMul par "des opérations plus simples" afin de réduire les coûts de calcul. L'approche permet de repenser fondamentalement les opérations des réseaux neuronaux qui sont actuellement accélérées par les GPU.


L'étude a été réalisée par des chercheurs de l'université de Californie à Santa Cruz, de l'université de Californie à Davis, de LuxiTech et de l'université de Soochow. Les résultats pourraient avoir de profondes répercussions sur l'impact environnemental et les coûts d'exploitation des systèmes d'IA. Le rapport indique que "les opérations MatMul peuvent être complètement éliminées des LLM tout en conservant de bonnes performances à l'échelle du milliard de paramètres". En outre, leur approche a également un impact sur la mémoire nécessaire à la formation d'un modèle de langage. Ce qui réduit davantage les coûts de formation.

En se débarrassant des opérations MatMul et en exécutant leur algorithme sur du matériel personnalisé, les chercheurs ont découvert qu'ils pouvaient faire fonctionner un modèle de langage à l'échelle d'un milliard de paramètres avec seulement 13 watts, ce qui équivaut à peu près à l'énergie nécessaire pour alimenter une ampoule électrique et est plus de 50 fois plus efficace que le matériel habituel. Même avec un algorithme réduit et une consommation d'énergie bien moindre, le nouveau modèle open source atteint les mêmes performances que les modèles de pointe tels que le LLM Llama de Meta, la société mère de Facebook.

Tous les modèles ayant servi de base à l'étude sont disponibles sur la plateforme HuggingFace. Vous pouvez les essayer en ligne ou localement en utilisant les bibliothèques de HuggingFace. Les chercheurs ont également fourni leur code sur GitHub, ce qui permet à d'autres personnes d'entraîner leurs modèles. Le résumé de l'article se lit comme suit :

Citation Envoyé par Extrait de l'article de recherche


La multiplication matricielle (MatMul) domine généralement le coût de calcul global des grands modèles de langage. Ce coût ne fait qu'augmenter au fur et à mesure que les LLM s'étendent à des dimensions d'intégration et à des longueurs de contexte plus importantes. Dans ce travail, nous montrons que les opérations MatMul peuvent être complètement éliminées des LLM tout en conservant de bonnes performances à l'échelle du milliard de paramètres.

Nos expériences montrent que les modèles sans MatMul que nous proposons atteignent des performances comparables à celles des transformateurs de pointe qui nécessitent beaucoup plus de mémoire pendant l'inférence à une échelle allant jusqu'à au moins 2,7 milliards de paramètres. Nous étudions les lois de mise à l'échelle et constatons que l'écart de performance entre nos modèles sans MatMul et les transformateurs de pleine précision se réduit au fur et à mesure que la taille du modèle augmente.

Nous fournissons également une implémentation GPU efficace de ce modèle qui réduit l'utilisation de la...
La fin de cet article est réservée aux abonnés. Soutenez le Club Developpez.com en prenant un abonnement pour que nous puissions continuer à vous proposer des publications.

Une erreur dans cette actualité ? Signalez-nous-la !

Avatar de
https://www.developpez.com
Le 27/06/2024 à 9:43
Mmm, un pas intéressant (optimisez la simplification) pour d'autres interactions ("U.S.U.L".
0  1 
Avatar de
https://www.developpez.com
Le 01/07/2024 à 11:38
Pour approfondir :
Le parasite autoréflexif ( depuis "échopraxie", Peter Watts) n'est qu'un reflet de ce qui nous fonde.
Le parasitage autoréflexif de la pensée n'est donc qu'un artefact (phénomène créé par des conditions expérimentales), une aberration dans le champ de la pensée, qui est au départ synergique et médiatrice (émergence au sein d'un agrégat).
Merci de garder vos pouces pour l'arène.
0  1