IdentifiantMot de passe
Loading...
Mot de passe oublié ?Je m'inscris ! (gratuit)

Vous êtes nouveau sur Developpez.com ? Créez votre compte ou connectez-vous afin de pouvoir participer !

Vous devez avoir un compte Developpez.com et être connecté pour pouvoir participer aux discussions.

Vous n'avez pas encore de compte Developpez.com ? Créez-en un en quelques instants, c'est entièrement gratuit !

Si vous disposez déjà d'un compte et qu'il est bien activé, connectez-vous à l'aide du formulaire ci-dessous.

Identifiez-vous
Identifiant
Mot de passe
Mot de passe oublié ?
Créer un compte

L'inscription est gratuite et ne vous prendra que quelques instants !

Je m'inscris !

Compression extrême sans perte : l'algorithme de compression IA TurboQuant de Google promet de réduire d'un facteur de six l'utilisation de la mémoire LLM

Le , par Stéphane le calme

25PARTAGES

14  0 
Un billet de recherche publié un mardi de mars 2026 a suffi à faire plonger les actions de Micron, SanDisk, SK Hynix et Samsung. L'algorithme en cause, TurboQuant, promet de diviser par six la mémoire nécessaire à l'exécution des grands modèles de langage, sans aucune perte de précision. Entre révolution technique réelle et panique boursière disproportionnée, retour sur une annonce qui a traversé bien au-delà des cercles académiques.

Pour comprendre l'enjeu de TurboQuant, il faut d'abord comprendre le problème qu'il prétend résoudre. Lorsqu'un grand modèle de langage génère du texte, il ne repart pas de zéro à chaque nouveau mot produit. Il s'appuie sur ce que l'on appelle le cache clé-valeur (KV cache), une zone de mémoire haute vitesse qui stocke les représentations numériques des tokens déjà traités, évitant de les recalculer à chaque étape. Ce mécanisme est au cœur de l'inférence, c'est-à-dire de la phase où le modèle répond à une requête plutôt que de s'entraîner.

Le problème est structurel : à mesure que les fenêtres de contexte s'agrandissent, le cache occupe une part croissante de la mémoire GPU, au détriment des capacités disponibles pour traiter davantage d'utilisateurs simultanés ou faire fonctionner des modèles plus ambitieux. Dans une industrie qui sert des centaines de millions de requêtes quotidiennes, ce goulot d'étranglement se traduit directement en coûts d'infrastructure colossaux.

Les techniques de quantification vectorielle existent depuis longtemps pour atténuer ce problème : elles consistent à compresser les vecteurs de données en substituant des valeurs continues par des représentations discrètes plus légères. Mais ces méthodes traînent un défaut persistant. Les approches conventionnelles nécessitent de stocker des constantes de quantification en haute précision pour chaque petit bloc de données, ce qui ajoute entre un et deux bits supplémentaires par valeur. Un surcoût qui annule en partie le bénéfice de la compression, surtout lorsque les contextes s'allongent.

La solution en deux étapes : PolarQuant et QJL

C'est précisément ce paradoxe que TurboQuant prétend résoudre. L'innovation centrale de l'algorithme réside dans l'élimination du surcoût qui rend la plupart des techniques de compression moins efficaces que leurs résultats affichés ne le suggèrent.

TurboQuant repose sur deux algorithmes complémentaires, eux-mêmes issus de travaux antérieurs de la même équipe de Google Research.

Le premier, PolarQuant, repense la façon dont les vecteurs sont représentés dans l'espace. Plutôt que d'utiliser les coordonnées cartésiennes standard, PolarQuant convertit les vecteurs en coordonnées polaires, séparant chaque vecteur en une magnitude et un ensemble d'angles. L'astuce mathématique tient à la géométrie : après une rotation aléatoire, la distribution de ces angles devient hautement prévisible et concentrée. Parce que la « forme » des données est désormais connue, le système n'a plus besoin de stocker de coûteuses constantes de normalisation pour chaque bloc de données.

Le second algorithme, QJL (pour Quantized Johnson-Lindenstrauss), prend en charge l'erreur résiduelle produite par la première étape. Il utilise la transformation de Johnson-Lindenstrauss pour réduire chaque valeur vectorielle résiduelle à un unique bit de signe, positif ou négatif. Cette étape n'introduit aucun surcoût mémoire.

Ensemble, PolarQuant et QJL permettent à TurboQuant d'utiliser la quasi-totalité de son budget de compression pour capter le sens des données d'origine, sans en gaspiller sur des métadonnées de décompression.


Des résultats sur les tests de référence

Les chercheurs ont validé l'approche sur cinq séries de tests de référence standard pour les modèles à longue fenêtre de contexte : LongBench, Needle in a Haystack, ZeroSCROLLS, RULER et L-Eval. Les modèles utilisés sont des versions ouvertes de Gemma, Mistral et Llama.

Les résultats sont sans ambiguïté. TurboQuant compresse le cache clé-valeur à 3 bits par valeur sans nécessiter de réentraînement ni d'ajustement fin du modèle, et sans perte mesurable de précision sur des tâches couvrant la réponse aux questions, la génération de code et la production de résumés. La réduction mémoire atteint au moins 6 fois la taille non compressée. Sur les tests de type « aiguille dans une botte de foin » (qui évaluent la capacité du modèle à retrouver une information précise noyée dans un long document), TurboQuant obtient des scores parfaits sur tous les tests de référence tout en réduisant la taille du cache clé-valeur d'un facteur d'au moins 6.

Côté performances brutes, sur des GPU NVIDIA H100, TurboQuant en mode 4 bits...
La fin de cet article est réservée aux abonnés. Soutenez le Club Developpez.com en prenant un abonnement pour que nous puissions continuer à vous proposer des publications.

Une erreur dans cette actualité ? Signalez-nous-la !

Avatar de Cyberduck
Membre à l'essai https://www.developpez.com
Le 26/03/2026 à 20:19
On parle de la compression d’un cache pas du modèle. La plupart des réactions à se papier sont complètement exagérées et je ne sais pas comment le fait que ce ne soit pas du tout ce que tout le monde imagine n’arrive pas plus à percer.
Même l’exemple sur Hugging face qui est censé « montrer » que ça compresse bien de 5x, oui le cache donc quelques centaines de Mo sur un modèle de 30Go. À l’échelle des modèles encore plus gros ce n’est pas négligeable mais ça ne va pas faire tourner Claude Opus sur votre ordinateur en local. La chute des valeurs boursières est complètement débile mais bon… ça c’est habituel.
3  0