L’essor de l’intelligence artificielle (IA) générative a entraîné la construction rapide de centres de données pour répondre à la demande croissante. Cependant, des inquiétudes grandissent quant à la capacité des États-Unis à produire suffisamment d'électricité, et à la capacité du réseau vieillissant du pays à supporter cette charge. Des rapports montrent qu'en 2023, Google et Microsoft ont consommé chacun 24 TWh d'électricité, ce qui dépasse la consommation de plus de 100 pays, confirmant que l'IA générative nécessite d'énormes quantités d'énergie.
Mais une nouvelle technique permettrait de réduire la consommation d'énergie jusqu'à 95 % sans compromettre la qualité. Les chercheurs de BitEnergy AI, Inc. ont mis au point une méthode de multiplication à complexité linéaire (L-Mul) qui remplace les multiplications à virgule flottante gourmandes en énergie par des additions plus simples de nombres entiers dans les calculs d'IA.
L-Mul s'attaque de front au problème de l'énergie de l'IA en réimaginant la manière dont les modèles d'IA traitent les calculs. Au lieu d'effectuer des multiplications complexes en virgule flottante, L-Mul se rapproche de ces opérations en utilisant des additions de nombres entiers. Ainsi, par exemple, au lieu de multiplier 123,45 par 67,89, L-Mul décompose l'opération en étapes plus petites et plus faciles à réaliser à l'aide d'additions. Les calculs sont ainsi plus rapides et consomment moins d'énergie, tout en conservant leur précision.
Les résultats semblent prometteurs. "L'application de l'opération L-Mul au matériel de traitement tensoriel peut potentiellement réduire de 95 % le coût énergétique des multiplications tensorielles en virgule flottante par éléments et de 80 % le coût énergétique des produits de points", affirment les chercheurs. Pour simplifier : Si un modèle utilisait cette technique, il nécessiterait 95 % d'énergie en moins pour penser et 80 % d'énergie en moins pour trouver de nouvelles idées, selon cette recherche.
Comparaison de la consommation d'énergie
Utiliser l'addition pour réduire la consommation d'énergie des modèles de langage
L'appétit vorace de l'IA pour l'électricité est devenu une préoccupation croissante. À lui seul, ChatGPT engloutit 564 MWh par jour, soit l'équivalent de 18 000 foyers américains. Selon les estimations du Cambridge Centre for Alternative Finance, l'ensemble du secteur de l'IA devrait consommer entre 85 et 134 TWh par an d'ici à 2027, soit à peu près la même quantité que les opérations de minage de Bitcoin.
Les grands modèles de langage, la technologie qui soustend l'IA, consacrent la majeure partie de leurs calculs à des multiplications de tenseurs en virgule flottante. La virgule flottante est une abréviation mathématique qui permet aux ordinateurs de traiter efficacement des nombres très grands et très petits en ajustant l'emplacement de la virgule décimale. Ils sont essentiels pour de nombreux calculs dans les modèles d'IA, mais ils nécessitent beaucoup d'énergie et de puissance de calcul. Plus le nombre est élevé, plus le modèle est performant et plus il nécessite de puissance de calcul.
Principe de la virgule flottante
Cette étude révèle qu'un multiplicateur à virgule flottante peut être approximé par un additionneur de nombres entiers avec une grande précision. Les chercheurs proposent donc l'algorithme de multiplication à complexité linéaire (L-Mul) qui approxime la multiplication de nombres en virgule flottante par des opérations d'addition de nombres entiers. Le nouvel algorithme coûte beaucoup moins de ressources de calcul que la multiplication en virgule flottante à 8 bits, tout en offrant une plus grande précision.
Par rapport aux multiplications en virgule flottante sur 8 bits, la méthode proposée permet d'obtenir une plus grande précision tout en consommant beaucoup moins de calculs au niveau des bits. Étant donné que la multiplication de nombres en virgule flottante nécessite une énergie nettement plus élevée que les opérations d'addition de nombres entiers, l'application de l'opération L-Mul au matériel de traitement tensoriel peut potentiellement réduire de 95 % le coût énergétique des multiplications tensorielles en virgule flottante par éléments et de 80 % le coût énergétique des produits de points.
Les chercheurs ont calculé l'espérance d'erreur théorique de L-Mul et évalué l'algorithme sur un large éventail de tâches textuelles, visuelles et symboliques, y compris la compréhension du langage naturel, le raisonnement structurel, les mathématiques et la réponse à des questions de bon sens. Les chercheurs affirment que les expériences d'analyse numérique sont en accord avec l'estimation théorique de l'erreur, qui indique que L-Mul avec une mantisse de 4 bits atteint une précision comparable à celle des multiplications float8 e4m3, et que L-Mul avec une mantisse de 3 bits est plus performant que float8 e5m2.
Les résultats de l'évaluation sur des repères populaires montrent que l'application directe de L-Mul au mécanisme d'attention est presque sans perte. Les résultats montre également que le remplacement de toutes les multiplications en virgule flottante par L-Mul avec mantisse de 3 bits dans un modèle de transformateur permet d'obtenir une précision équivalente à l'utilisation de float8 e4m3 comme précision d'accumulation à la fois pour le réglage fin et pour l'inférence.
Comparaison des performances de L-Mul
Les chercheurs présentent l'étude :
Dans cet article, nous avons présenté L-Mul, un algorithme efficace qui approxime la multiplication en virgule flottante à l'aide de l'addition de nombres entiers. Nous avons d'abord démontré que l'algorithme présente une complexité linéaire par rapport à la taille des bits de ses opérandes en virgule flottante. Nous avons ensuite montré que la précision attendue de L-Mul surpasse celle des multiplications fp8 tout en nécessitant beaucoup moins de puissance de calcul. Afin d'évaluer l'impact pratique de L-Mul, nous l'avons évalué sur des benchmarks de langage naturel, de vision et de mathématiques en utilisant des modèles de langage populaires.
Nos expériences indiquent que L-Mul surpasse les transformateurs 8 bits avec une consommation de calcul plus faible et atteint des performances sans perte lorsqu'il est appliqué à des couches d'attention à forte intensité de calcul sans formation supplémentaire. Sur la base de ces preuves, nous soutenons que les multiplications de tenseurs dans les modèles de langage peuvent être efficacement mises en œuvre en utilisant L-Mul pour préserver les performances tout en permettant un déploiement de modèle économe en énergie.
Nos expériences indiquent que L-Mul surpasse les transformateurs 8 bits avec une consommation de calcul plus faible et atteint des performances sans perte lorsqu'il est appliqué à des couches d'attention à forte intensité de calcul sans formation supplémentaire. Sur la base de ces preuves, nous soutenons que les multiplications de tenseurs dans les modèles de langage peuvent être efficacement mises en œuvre en utilisant L-Mul pour préserver les performances tout en permettant un déploiement de modèle économe en énergie.
Cette découverte arrive à un moment où de nombreux experts s'inquiètent de plus en plus de l'empreinte carbone de l'IA générative. Une experte a récemment prévenu que l'IA générative accélère la crise climatique en raison de sa forte consommation d'énergie. Elle affirmait que l'IA générative consomme 30 fois plus d'énergie qu'un moteur de recherche, ce qui constitue un danger pour l'environnement. Elle avait notamment déclaré : "si vous vous souciez de l'environnement, réfléchissez à deux fois avant d'utiliser l'IA".
Aux États-Unis, les analystes rapportent que les réseaux électriques atteignent peu à peu leur limite. En 2024, les prévisions de croissance à cinq ans de Grid Strategies ont atteint 4,7 % et les planificateurs de Grid Strategies s'attendent à ce que la demande de pointe augmente de 38 gigawatts. Cela équivaut à la quantité nécessaire pour alimenter 12,7 millions de foyers, soit un peu plus que le nombre total d'unités d'habitation au Texas. Mais plus inquiétant encore, les analystes pensent que ce chiffre est probablement une sous-estimation des besoins réels. Cette nouvelle technique constitue donc une perspective intéressante pour faire face à cette situation.
Source : "Addition is all you need for energy-efficient language models"
Et vous ?
Pensez-vous que cette technique est crédible ou pertinente ?
Quel est votre avis sur le sujet ?
Voir aussi :
L'appétit énergétique de l'IA met à rude épreuve le réseau électrique des États-Unis qui n'était pas préparé à une augmentation subite de la charge, laissant l'industrie à la recherche de solutions miracles
L'ancien PDG de Google, Eric Schmidt, estime que nous devrions nous lancer à fond dans la construction de centres de données d'IA, car « de toute façon, nous n'atteindrons jamais nos objectifs climatiques »
L'alliance controversée : comment l'industrie technologique s'approprie l'énergie nucléaire pour alimenter l'IA, entre solutions pragmatiques et risques environnementaux
Au-delà du battage médiatique : Mes réflexions honnêtes sur l'IA générative, par Mensur Durakovic