
Après son lancement de Gemma 3, Google a publié une version de Gemma 3 optimisée pour l'apprentissage par quantification (QAT), qui réduit considérablement les besoins en mémoire tout en préservant la qualité du modèle. Plus précisément, la demande en VRAM du modèle Gemma3 27B optimisé par QAT a considérablement diminué, passant de 54 Go à 14,1 Go, ce qui signifie que les utilisateurs peuvent désormais faire tourner ce grand modèle localement sur des GPU grand public comme la NVIDIA RTX 3090.
En mars 2025, Google a lancé Gemma 3, sa dernière génération de modèles ouverts. Offrant des performances de pointe, Gemma 3 s'est imposé comme un modèle de premier plan capable de fonctionner sur un seul GPU haut de gamme comme le NVIDIA H100 en utilisant sa précision native BFloat16 (BF16).
Pour rendre Gemma 3 encore plus accessible, Google annonce de nouvelles versions optimisées avec Quantization-Aware Training (QAT) qui réduirait considérablement les besoins en mémoire tout en maintenant une haute qualité. Cela vous permettrait d'exécuter localement des modèles puissants comme Gemma 3 27B sur des GPU grand public comme la NVIDIA RTX 3090.
Comprendre les performances, la précision et la quantification
Le graphique ci-dessus montre les performances (score Elo) des grands modèles de langues récemment publiés. Les barres plus hautes indiquent une meilleure performance dans les comparaisons évaluées par des humains regardant côte à côte les réponses de deux modèles anonymes. Sous chaque barre, il est indiqué le nombre estimé de GPU NVIDIA H100 nécessaires pour exécuter ce modèle en utilisant le type de données BF16.
Pourquoi utiliser BFloat16 pour cette comparaison ? BF16 est un format numérique couramment utilisé lors de l'inférence de nombreux modèles de grande taille. Cela signifie que les paramètres du modèle sont représentés avec 16 bits de précision. L'utilisation de BF16 pour tous les modèles permet de comparer les modèles dans une configuration d'inférence commune. Cela permet de comparer les capacités inhérentes aux modèles eux-mêmes, en éliminant les variables telles que les différents matériels ou les techniques d'optimisation telles que la quantification.
Il est important de noter que si ce graphique utilise BF16 pour une comparaison équitable, le déploiement des modèles les plus importants implique souvent l'utilisation de formats de précision inférieure comme FP8 comme une nécessité pratique pour réduire les exigences matérielles immenses (comme le nombre de GPU), en acceptant potentiellement un compromis de performance pour la faisabilité.
Les modèles QAT Gemma 3 pour plus d'accessibilité
Bien que les performances de pointe sur du matériel haut de gamme soient excellentes pour les déploiements dans le cloud et la recherche, Google souhaite rendre l'IA puissante plus accessible, ce qui signifie permettre des performances efficaces sur les GPU grand public que l'on trouve dans les ordinateurs de bureau, les ordinateurs portables et même les téléphones.
C'est là que la quantification entre en jeu. Dans les modèles d'IA, la quantification réduit la précision des nombres (les paramètres du modèle) qu'il stocke et utilise pour calculer les réponses. La quantification est comparable à la compression d'une image en réduisant le nombre de couleurs qu'elle utilise. Au lieu d'utiliser 16 bits par nombre (BFloat16), on peut utiliser moins de bits, comme 8 (int8) ou même 4 (int4).
L'utilisation de int4 signifie que chaque nombre est représenté en utilisant seulement 4 bits - une réduction de 4 fois la taille des données par rapport à BF16. La quantification peut souvent entraîner une dégradation des performances, mais Google affirme que les modèles Gemma 3 sont robustes à la quantification. Googla a publié plusieurs variantes quantifiées pour chaque modèle Gemma 3 afin de permettre l'inférence avec votre moteur d'inférence préféré, comme Q4_0 (un format de quantification courant) pour Ollama, llama.cpp et MLX.
Google déclare :
Comment maintenons-nous la qualité ? Nous utilisons QAT. Au lieu de quantifier le modèle une fois qu'il a été entièrement entraîné, QAT incorpore le processus de quantification pendant l'entraînement. QAT simule des opérations de faible précision pendant la formation afin de permettre une quantification avec moins de dégradation par la suite pour des modèles plus petits et plus rapides tout en maintenant la précision. En approfondissant, nous avons appliqué QAT sur ~5 000 étapes en utilisant les probabilités du point de contrôle non quantifié comme cibles. Nous avons réduit la chute de perplexité de 54% (en utilisant l'évaluation de perplexité de llama.cpp) lors de la quantification jusqu'à Q4_0.
Le graphique montre la VRAM (mémoire du GPU) requise juste pour charger les poids du modèle :
- Gemma 3 27B : passe de 54 Go (BF16) à seulement 14,1 Go (int4)
- Gemma 3 12B : passe de 24 Go (BF16) à seulement 6,6 Go (int4)
- Gemma 3 4B : Passe de 8 Go (BF16) à 2,6 Go (int4)
- Gemma 3 1B : Passe de 2 Go (BF16) à un minuscule 0,5 Go (int4)
Ces réductions devraient permettre d'exécuter des modèles plus grands et plus puissants sur du matériel grand public largement disponible :
- Gemma 3 27B (int4) : Tient désormais sur une carte NVIDIA RTX 3090 (24 Go de VRAM) ou une carte similaire, ce qui vous permet de faire tourner localement la plus grande variante de Gemma 3.
- Gemma 3 12B (int4) : Fonctionne sur les GPU d'ordinateurs portables tels que le GPU NVIDIA RTX 4060 (8 Go de VRAM), apportant de puissantes capacités d'IA aux machines portables.
- Modèles plus petits (4B, 1B) : Offrent une accessibilité encore plus grande aux systèmes dont les ressources sont plus limitées, y compris les téléphones.
En outre, Google annonce la disponibilité des modèles QAT dans plusieurs cadre. Les modèles officiels int4 et Q4_0 non quantifiés sont disponibles sur Hugging Face et Kaggle. Google annonce égalelment le partenariat avec des outils de développement populaires :
- Ollama : Soyez rapidement opérationnel - tous les modèles QAT Gemma 3 sont nativement pris en charge.
- LM Studio : Téléchargez et exécutez facilement les modèles QAT de Gemma 3 sur votre bureau grâce à son interface.
- MLX : Exploitez MLX pour une inférence efficace et optimisée des modèles QAT de Gemma 3 sur Apple Silicon.
- Gemma.cpp : Utilisez l'implémentation C++ dédiée pour une inférence hautement efficace directement sur le CPU.
- llama.cpp : S'intègre facilement dans les flux de travail existants grâce à la prise en charge native des modèles QAT au format GGUF.
Google conclut son annonce :
Nos modèles officiels QAT (Quantization Aware Trained) fournissent une base de haute qualité, mais le vibrant Gemmaverse offre de nombreuses alternatives. Celles-ci utilisent souvent la quantification post-entraînement (PTQ), avec des contributions significatives de membres tels que Bartowski, Unsloth, et GGML facilement disponibles sur Hugging Face. L'exploration de ces options communautaires offre un plus large éventail de compromis en termes de taille, de vitesse et de qualité pour répondre à des besoins spécifiques.
Source : Google
Et vous ?


Voir aussi :



Vous avez lu gratuitement 7 articles depuis plus d'un an.
Soutenez le club developpez.com en souscrivant un abonnement pour que nous puissions continuer à vous proposer des publications.
Soutenez le club developpez.com en souscrivant un abonnement pour que nous puissions continuer à vous proposer des publications.