Compression extrême sans perte : l’algorithme de compression IA TurboQuant de Google promet de réduire l’utilisation de la mémoire LLM,Un billet de recherche publié un mardi de mars 2026 a suffi à faire plonger les actions de Micron, SanDisk, SK Hynix et Samsung. L'algorithme en cause, TurboQuant, promet de diviser par six la mémoire nécessaire à l'exécution des grands modèles de langage, sans aucune perte de précision. Entre révolution technique réelle et panique boursière disproportionnée, retour sur une annonce qui a traversé bien au-delà des cercles académiques.
Pour comprendre l'enjeu de TurboQuant, il faut d'abord comprendre le problème qu'il prétend résoudre. Lorsqu'un grand modèle de langage génère du texte, il ne repart pas de zéro à chaque nouveau mot produit. Il s'appuie sur ce que l'on appelle le cache clé-valeur (KV cache), une zone de mémoire haute vitesse qui stocke les représentations numériques des tokens déjà traités, évitant de les recalculer à chaque étape. Ce mécanisme est au cœur de l'inférence, c'est-à-dire de la phase où le modèle répond à une requête plutôt que de s'entraîner.
Le problème est structurel : à mesure que les fenêtres de contexte s'agrandissent, le cache occupe une part croissante de la mémoire GPU, au détriment des capacités disponibles pour traiter davantage d'utilisateurs simultanés ou faire fonctionner des modèles plus ambitieux. Dans une industrie qui sert des centaines de millions de requêtes quotidiennes, ce goulot d'étranglement se traduit directement en coûts d'infrastructure colossaux.
Les techniques de quantification vectorielle existent depuis longtemps pour atténuer ce problème : elles consistent à compresser les vecteurs de données en substituant des valeurs continues par des représentations discrètes plus légères. Mais ces méthodes traînent un défaut persistant. Les approches conventionnelles nécessitent de stocker des constantes de quantification en haute précision pour chaque petit bloc de données, ce qui ajoute entre un et deux bits supplémentaires par valeur. Un surcoût qui annule en partie le bénéfice de la compression, surtout lorsque les contextes s'allongent.
La solution en deux étapes : PolarQuant et QJL
C'est précisément ce paradoxe que TurboQuant prétend résoudre. L'innovation centrale de l'algorithme réside dans l'élimination du surcoût qui rend la plupart des techniques de compression moins efficaces que leurs résultats affichés ne le suggèrent.
TurboQuant repose sur deux algorithmes complémentaires, eux-mêmes issus de travaux antérieurs de la même équipe de Google Research.
Le premier, PolarQuant, repense la façon dont les vecteurs sont représentés dans l'espace. Plutôt que d'utiliser les coordonnées cartésiennes standard, PolarQuant convertit les vecteurs en coordonnées polaires, séparant chaque vecteur en une magnitude et un ensemble d'angles. L'astuce mathématique tient à la géométrie : après une rotation aléatoire, la distribution de ces angles devient hautement prévisible et concentrée. Parce que la « forme » des données est désormais connue, le système n'a plus besoin de stocker de coûteuses constantes de normalisation pour chaque bloc de données.
Le second algorithme, QJL (pour Quantized Johnson-Lindenstrauss), prend en charge l'erreur résiduelle produite par la première étape. Il utilise la transformation de Johnson-Lindenstrauss pour réduire chaque valeur vectorielle résiduelle à un unique bit de signe, positif ou négatif. Cette étape n'introduit aucun surcoût mémoire.
Ensemble, PolarQuant et QJL permettent à TurboQuant d'utiliser la quasi-totalité de son budget de compression pour capter le sens des données d'origine, sans en gaspiller sur des métadonnées de décompression.
Des résultats sur les tests de référence
Les chercheurs ont validé l'approche sur cinq séries de tests de référence standard pour les modèles à longue fenêtre de contexte : LongBench, Needle in a Haystack, ZeroSCROLLS, RULER et L-Eval. Les modèles utilisés sont des versions ouvertes de Gemma, Mistral et Llama.
Les résultats sont sans ambiguïté. TurboQuant compresse le cache clé-valeur à 3 bits par valeur sans nécessiter de réentraînement ni d'ajustement fin du modèle, et sans perte mesurable de précision sur des tâches couvrant la réponse aux questions, la génération de code et la production de résumés. La réduction mémoire atteint au moins 6 fois la taille non compressée. Sur les tests de type « aiguille dans une botte de foin » (qui évaluent la capacité du modèle à retrouver une information précise noyée dans un long document), TurboQuant obtient des scores parfaits sur tous les tests de référence tout en réduisant la taille du cache clé-valeur d'un facteur d'au moins 6.
Côté performances brutes, sur des GPU NVIDIA H100, TurboQuant en mode 4 bits réalise jusqu'à 8 fois plus de rapidité dans le calcul des logits d'attention par rapport à des clés non compressées en 32 bits. Un gain de vitesse qui, s'il se confirme en production, changerait radicalement l'économie des déploiements à grande échelle.
À noter que à 3 bits, TurboQuant égale ou dépasse KIVI, l'algorithme de référence actuel pour la quantification des caches clé-valeur, publié à l'ICML 2024. Et tout cela sans nécessiter de réentraînement du modèle, un atout de poids pour les équipes d'ingénierie qui ne souhaitent pas modifier leur chaîne d'entraînement.
Les résultats seront présentés à la conférence ICLR 2026 à Rio de Janeiro, ainsi qu'à AISTATS 2026 à Tanger pour PolarQuant. La disponibilité du code en accès libre est attendue pour le deuxième trimestre 2026.
La réaction des marchés : un « moment DeepSeek » ?
La publication du billet de recherche, mardi 25 mars, a déclenché une réaction boursière immédiate et sévère. Micron a perdu 3 %, Western Digital 4,7 % et SanDisk 5,7 %, tandis que les investisseurs recalculaient la quantité de mémoire physique dont l'industrie de l'IA pourrait réellement avoir besoin. En Corée, SK Hynix a reculé de 5,6 % et Samsung de 4,3 %.
Le PDG de Cloudflare, Matthew Prince, a qualifié l'annonce de « moment DeepSeek de Google », référence au choc causé début 2025 par la publication du modèle chinois DeepSeek, qui avait lui aussi soulevé des interrogations sur le volume de matériel nécessaire à l'entraînement des IA. Sur les réseaux sociaux, la comparaison est allée plus loin, nombre d'utilisateurs associant TurboQuant à Pied Piper, la startup fictive de la série Silicon Valley dont la percée technologique reposait précisément sur un algorithme de compression sans perte.
Le paradoxe de Jevons contre la panique boursière
Les analystes de Wall Street ont rapidement tempéré l'enthousiasme (ou la crainte) des marchés. Morgan Stanley a précisé que TurboQuant n'agit que sur le cache clé-valeur pendant la phase d'inférence, sans toucher aux poids du modèle lui-même ni à la mémoire à large bande passante (HBM) occupée par ces poids, et sans aucun rapport avec les tâches d'entraînement. Autrement dit, une réduction du cache ne se traduit pas mécaniquement par une réduction d'un facteur six de la demande totale en mémoire, loin s'en faut.
Les analystes ont également mobilisé le paradoxe de Jevons : lorsqu'une ressource devient plus efficace et moins coûteuse à utiliser, la consommation totale de cette ressource augmente en réalité. Appliqué à l'IA, le raisonnement est le suivant : si TurboQuant permet à un modèle de tourner sur 16 Go de VRAM au lieu de 96 Go, les développeurs n'arrêteront pas là. Ils utiliseront la capacité libérée pour faire tourner des modèles six fois plus complexes, traiter des contextes bien plus longs, ou déployer des agents sur des appareils qui en étaient jusqu'alors incapables.
L'analyste Andrew Rocha de Wells Fargo a maintenu son objectif de cours à 700 dollars sur Micron, notant que si TurboQuant attaque directement la courbe de coûts de la mémoire dans les systèmes d'IA, les preuves historiques montrent que les algorithmes de compression n'ont jamais fondamentalement modifié les volumes globaux d'achats matériels.
Il n'en reste pas moins que la réaction des marchés est révélatrice d'une tension de fond dans le secteur. La question est de savoir si ces gains d'efficacité réduiront la quantité totale de matériel acheté par l'industrie, ou s'ils permettront simplement des déploiements plus ambitieux à un coût globalement comparable. Meta s'est récemment engagé à hauteur de 27 milliards de dollars auprès de Nebius pour des capacités de calcul dédiées, et Google, Microsoft et Amazon planifient collectivement des centaines de milliards de dépenses d'investissement en centres de données pour 2026. Dans ce contexte, l'optimisation algorithmique ne remplace pas les besoins en infrastructure, elle les reconfigure.
Une avancée réelle, mais encore cantonnée à la recherche
Si l'enthousiasme est compréhensible, quelques nuances s'imposent. TurboQuant reste, à ce jour, un résultat de recherche qui sera présenté en conférence. Google ne dit rien d'une intégration dans Gemini ou dans ses services cloud, et entre un résultat de laboratoire et un déploiement en production, le chemin est rarement une ligne droite.
Les premiers portages communautaires vers des bibliothèques comme MLX pour Apple Silicon et llama.cpp ont déjà débuté. Des expérimentations sur le modèle Qwen3.5-35B ont montré environ 5 fois de compression avec 99,5 % de rétention de qualité. La disponibilité du code source officiel est attendue pour le deuxième trimestre 2026, ce qui permettra à l'industrie d'évaluer concrètement les conditions de déploiement.
La portée de TurboQuant dépasse d'ailleurs la seule gestion du cache des grands modèles de langage. L'algorithme s'applique également à la recherche vectorielle, la technologie qui sous-tend les moteurs de recherche par similarité sémantique et les bases de données vectorielles utilisées dans les architectures RAG (Retrieval-Augmented Generation). Pour ces cas d'usage, la combinaison d'une empreinte mémoire divisée par six et d'une indexation quasi instantanée pourrait se révéler particulièrement structurante.
Il faudra attendre les résultats de déploiements réels pour confirmer si TurboQuant tient ses promesses hors des conditions contrôlées d'un laboratoire. Mais dans un secteur où les coûts d'inférence sont devenus la principale variable d'ajustement économique, une réduction aussi significative de la pression mémoire, si elle se vérifie, changera durablement les équilibres.
Source : Google Research
Et vous ?
TurboQuant annonce zéro perte de précision sur les tests de référence standard, mais ces tests capturent-ils réellement les scénarios les plus exigeants rencontrés en production, ou existe-t-il des cas limites que les conditions de laboratoire ne permettent pas d'identifier ?
Le paradoxe de Jevons plaide pour que l'efficacité algorithmique stimule la demande en matériel plutôt qu'elle ne la contracte, mais y a-t-il un seuil au-delà duquel les gains d'efficacité finissent réellement par décorréler croissance de l'IA et besoins en puces ?
Google publie TurboQuant en recherche ouverte, comme il l'avait fait pour le Transformer en 2017, une générosité académique qui profite à l'ensemble de l'industrie, y compris à ses concurrents directs. Quelle lecture faire de cette stratégie de publication ouverte à l'heure où la compétition géopolitique sur l'IA s'intensifie ?
Si des algorithmes comme TurboQuant permettent aux grands modèles de tourner sur des appareils grand public (smartphones, laptops), quelles conséquences cela aurait-il sur le modèle économique des fournisseurs de cloud qui monétisent précisément l'accès à cette puissance de calcul ?
Vous avez lu gratuitement 935 articles depuis plus d'un an.
Soutenez le club developpez.com en souscrivant un abonnement pour que nous puissions continuer à vous proposer des publications.
Soutenez le club developpez.com en souscrivant un abonnement pour que nous puissions continuer à vous proposer des publications.