Grâce à l'utilisation de générateurs de texte basés sur la prédiction multi-jetons (MTP), les modèles Gemma 4 réduisent les goulots d'étranglement liés à la latence et offrent une meilleure réactivitéEn avril 2026, Google a lancé Gemma 4, la version la plus récente et la plus performante de sa famille de modèles d'IA open source. Récemment, Google annonce pousser l’efficacité du modèle encore plus loin avec le lancement des générateurs de prédiction multi-jetons (MTP) pour la famille Gemma 4. Grâce à une architecture de décodage spéculatif spécialisée, ces générateurs offrent un gain de vitesse pouvant atteindre le triple, sans aucune dégradation de la qualité de sortie ni de la logique de raisonnement.
Google LLC est une multinationale américaine spécialisée dans les technologies de l'information, la publicité en ligne, les moteurs de recherche, la messagerie électronique, le cloud computing, les logiciels, l'informatique quantique, le commerce électronique, l'électronique grand public et l'intelligence artificielle (IA). Après le succès de son service d'origine, Google Search (souvent appelé simplement « Google »), la société s'est rapidement développée pour proposer une multitude de produits et de services, notamment Gmail, Google Maps, Google Cloud, Chrome, YouTube, Workspace, Android, ChromeOS, ou encore Gemini.
Gemma est une série de grands modèles de langage open source développés par Google DeepMind, le laboratoire de recherche en IA de Google. Elle repose sur des technologies similaires à celles de Gemini. La première version a été lancée en février 2024, suivie de Gemma 2 en juin 2024, de Gemma 3 en mars 2025 et de Gemma 4, libre et open source, en avril 2026. Des variantes de Gemma ont également été développées, telles que le modèle vision-langage PaliGemma et le modèle MedGemma dédié aux consultations médicales.
Selon Google, Gemma 4 est la version la plus récente et la plus performante de sa famille de modèles d'IA open source. Google lance Gemma 4 en quatre tailles, conçues pour couvrir tous les besoins, des appareils mobiles aux machines de développement haut de gamme. Le PDG de Google, Sundar Pichai, a déclaré que ces modèles renfermaient « une quantité incroyable d’intelligence par paramètre », tandis que le directeur général de Google DeepMind a qualifié Gemma 4 de « meilleurs modèles ouverts au monde pour leurs tailles respectives ». L'un des principaux atouts de Gemma 4 réside peut-être dans la façon dont Google a réussi à le rendre si compact tout en conservant sa puissance.
Récemment, Google annonce pousser l’efficacité du modèle encore plus loin avec le lancement des générateurs de prédiction multi-jetons (MTP) pour la famille Gemma 4. Grâce à une architecture de décodage spéculatif spécialisée, ces générateurs offrent un gain de vitesse pouvant atteindre le triple, sans aucune dégradation de la qualité de sortie ni de la logique de raisonnement.
Pourquoi le décodage spéculatif ?
La réalité technique est que l'inférence LLM standard est limitée par la bande passante mémoire, ce qui crée un goulot d'étranglement important en termes de latence. Le processeur passe la majeure partie de son temps à déplacer des milliards de paramètres de la VRAM vers les unités de calcul simplement pour générer un seul token. Cela conduit à une sous-utilisation des ressources de calcul et à une latence élevée, en particulier sur le matériel grand public.
Selon Google, le décodage spéculatif dissocie la génération de jetons de la vérification. En associant un modèle cible lourd (par exemple, Gemma 4 31B) à un générateur léger (le modèle MTP), on peut utiliser la puissance de calcul inutilisée pour « prédire » plusieurs jetons futurs à la fois avec le générateur, en moins de temps qu’il n’en faut au modèle cible pour traiter un seul token. Le modèle cible vérifie ensuite tous ces jetons suggérés en parallèle.
Comment fonctionne le décodage spéculatif
Les grands modèles de langage standard génèrent du texte de manière autorégressive, produisant exactement un token à la fois. Bien qu’efficace, ce processus consacre autant de ressources de calcul à la prédiction d’une suite évidente (comme prédire les « mots » après « Les actes sont plus éloquents que… ») qu’à la résolution d’une énigme logique complexe.
MTP atténue cette inefficacité grâce au décodage spéculatif, une technique introduite par les chercheurs de Google dans « Fast Inference from Transformers via Speculative Decoding ». Si le modèle cible est d’accord avec le brouillon, il accepte la séquence entière en un seul passage avant — et génère même un token supplémentaire de son propre chef au cours du processus. Cela signifie que votre application peut produire la séquence complète du brouillon plus un token en un temps qui correspond habituellement à la génération d’un seul token.
Accélérer l’IA, de la périphérie au poste de travail
Pour les développeurs, la vitesse d’inférence est souvent le principal goulot d’étranglement pour le déploiement en production. Que vous développiez des assistants de codage, des agents autonomes nécessitant une planification rapide en plusieurs étapes ou des applications mobiles réactives fonctionnant entièrement sur l’appareil, chaque milliseconde compte.
En associant un modèle Gemma 4 à son générateur correspondant, les développeurs peuvent obtenir :
- Une réactivité améliorée : réduisez considérablement la latence pour les chats en temps quasi réel, les applications vocales immersives et les workflows agentiques.
- Un développement local surpuissant : exécutez les modèles 26B MoE et 31B Dense sur des ordinateurs personnels et des GPU grand public à une vitesse sans précédent, pour des workflows de codage et agentiques hors ligne complexes et fluides.
- Des performances sur appareil améliorées : optimisez l'utilité des modèles E2B et E4B sur les appareils en périphérie en générant des résultats plus rapidement, ce qui permet de préserver l'autonomie précieuse de la batterie.
- Aucune dégradation de la qualité : comme le modèle Gemma 4 principal conserve la vérification finale, vous bénéficiez d'un raisonnement et d'une précision de pointe identiques, mais fournis de manière nettement plus rapide.
Les générateurs MTP pour la famille Gemma 4 sont disponibles sous la même licence open source Apache 2.0 que Gemma 4. Vous pouvez télécharger les poids du modèle sur Hugging Face et Kaggle, et commencer à tester une inférence plus rapide avec Transformers, MLX, VLLM, SGLang et Ollama, ou les essayer directement sur Google AI Edge Gallery pour Android ou iOS. Lors de l'annonce de Gemma 4, Google a notamment mis à jour son application AI Edge Gallery, qui intègre le modèle de langage Gemma 4 et permet aux utilisateurs de l'exécuter localement sur leurs smartphones Android et iOS. L'application permet un traitement sur l'appareil, ce qui signifie que les utilisateurs peuvent accéder aux fonctionnalités d'IA sans avoir besoin d'une connexion Internet active.
Voici un extrait de l'annonce de Google :
Où approfondir vos connaissances sur les générateurs MTP
Pour rendre ces générateurs MTP exceptionnellement rapides et précis, nous avons apporté plusieurs améliorations architecturales en arrière-plan. Les modèles de génération exploitent de manière transparente les activations du modèle cible et partagent son cache clé-valeur, ce qui leur évite de perdre du temps à recalculer le contexte que le modèle plus grand a déjà déterminé. Pour nos modèles de périphérie E2B et E4B, où le calcul final du logit devient un goulot d'étranglement important, nous avons même mis en œuvre une technique de clustering efficace dans l'embedder afin d'accélérer encore davantage la génération.
Nous avons également analysé de près les optimisations spécifiques au matériel. Par exemple, alors que le modèle « mixture-of-experts » de 26 milliards de paramètres présente des défis de routage uniques avec une taille de lot de 1 sur Apple Silicon, le traitement simultané de plusieurs requêtes (par exemple, des tailles de lot de 4 à 8) permet d’obtenir un gain de vitesse local pouvant atteindre environ 2,2 fois. Nous observons des gains similaires avec la carte Nvidia A100 lorsque la taille de lot est augmentée.
Vous souhaitez comprendre le fonctionnement exact de ce mécanisme ? Nous avons publié un guide technique détaillé qui explique l'architecture visuelle, le partage du cache KV et les embedders efficaces qui alimentent ces générateurs.
Source : Annonce de Google
Et vous ?
Pensez-vous que cette méthode est crédible ou pertinente ?
Quel est votre avis sur le sujet ?Voir aussi :
Alibaba a lancé Qwen3-Next, une toute nouvelle architecture de modèle d'IA optimisée pour la compréhension de contextes longs, les paramètres à grande échelle et une efficacité de calcul sans précédent
Compression extrême sans perte : l'algorithme de compression IA TurboQuant de Google promet de réduire d'un facteur de six l'utilisation de la mémoire LLM
La start-up française Mistral AI lance Mistral Small 4, un modèle d'IA open source qui combine raisonnement, programmation et IA multimodale, pour offrir un outil unique et adaptable
Vous avez lu gratuitement 327 articles depuis plus d'un an.
Soutenez le club developpez.com en souscrivant un abonnement pour que nous puissions continuer à vous proposer des publications.
Soutenez le club developpez.com en souscrivant un abonnement pour que nous puissions continuer à vous proposer des publications.