Google a annoncé la sortie complète de Gemma 3n, la dernière version de son modèle d'IA ouvert capable de fonctionner sur un seul GPU

"Gemma 3n représente une avancée majeure pour l'IA sur appareil"

Le 27 juin 2025 à 20:15, par Alex

94PARTAGES

Google a annoncé la sortie complète de Gemma 3n, la dernière version de son modèle d'IA ouvert capable de fonctionner sur un seul GPU, "Gemma 3n représente une avancée majeure pour l'IA sur appareil"

Google a annoncé la sortie complète de Gemma 3n. Google affirme : "Gemma 3n représente une avancée majeure pour l'IA sur appareil, apportant de puissantes capacités multimodales aux appareils périphériques avec des performances qui n'étaient auparavant disponibles que dans les modèles de pointe basés sur le cloud de l'année dernière." Gemma 3n intègre des composants novateurs tels que l'architecture MatFormer pour la flexibilité de calcul, Per Layer Embeddings (PLE) pour l'efficacité de la mémoire, LAuReL et AltUp pour l'efficacité architecturale, ainsi que de nouveaux encodeurs audio et de vision basés sur MobileNet-v5 optimisés pour les cas d'utilisation sur appareil.

Le premier modèle Gemma a été lancé au début de l'année dernière et s'est depuis développé pour former un Gemmaverse avec plus de 160 millions de téléchargements cumulés. Cet écosystème comprend une famille de plus d'une douzaine de modèles spécialisés pour différents types d'applications. Par exemple, Roboflow a utilisé le modèle pour développer une vision par ordinateur pour les entreprises.

En mai 2025, Google a annoncé en avant-première Gemma 3n, la dernière version de son modèle d'IA ouvert capable de fonctionner sur un seul GPU. Selon Google, Gemma 3n est conçue pour fonctionner efficacement sur les smartphones, ordinateurs portables et tablettes avec seulement un seul GPU. Gemma 3n serait capable de traiter du texte, des images et, à terme, de l'audio et de la vidéo directement sur les appareils sans nécessiter du cloud computing.

Récemment, Google a annoncé la sortie complète de Gemma 3n. Si l'aperçu a donné un avant-goût du modèle, c'est maintenant que Google dévoile toute la performance de cette architecture axée sur les appareils mobiles. Gemma 3n est prise en charge par les outils tels que Hugging Face Transformers, llama.cpp, Google AI Edge, Ollama, MLX et bien d'autres, ce qui vous permet de l'ajuster et de la déployer pour vos applications spécifiques sur appareil.

Google affirme : "Gemma 3n représente une avancée majeure pour l'IA sur appareil, apportant de puissantes capacités multimodales aux appareils périphériques avec des performances qui n'étaient auparavant disponibles que dans les modèles de pointe basés sur le cloud de l'année dernière."

Voici les nouveautés qu'apporteraient Gemma 3n :

Multimodal de par sa conception : Gemma 3n prend en charge nativement les entrées image, audio, vidéo et texte, ainsi que les sorties texte.
Optimisé pour les appareils : conçus dans un souci d'efficacité, les modèles Gemma 3n sont disponibles en deux tailles en fonction des paramètres effectifs : E2B et E4B. Bien que leur nombre de paramètres bruts soit respectivement de 5B et 8B, des innovations architecturales leur permettent de fonctionner avec une empreinte mémoire comparable à celle des modèles traditionnels 2B et 4B, avec seulement 2 Go (E2B) et 3 Go (E4B) de mémoire.
Nouvelle architecture : Gemma 3n intègre des composants novateurs tels que l'architecture MatFormer pour la flexibilité de calcul, Per Layer Embeddings (PLE) pour l'efficacité de la mémoire, LAuReL et AltUp pour l'efficacité architecturale, ainsi que de nouveaux encodeurs audio et de vision basés sur MobileNet-v5 optimisés pour les cas d'utilisation sur appareil.
Qualité améliorée : Gemma 3n offre des améliorations de qualité dans les domaines du multilinguisme (prise en charge de 140 langues pour le texte et la compréhension multimodale de 35 langues), des mathématiques, du codage et du raisonnement. La version E4B atteint un score LMArena supérieur à 1300, ce qui en fait le premier modèle de moins de 10 milliards de paramètres à atteindre ce niveau de référence.

Pour rappel, un récent rapport a révélé que Google a détrôné IBM pour devenir l'acteur dominant des brevets liés à l'IA générative et est désormais en tête dans le domaine émergent de l'IA agentique. En effet, dans le classement américain des brevets liés aux agents d'IA, Google et Nvidia occupent les premières places, et pour les brevets d'IA générative au niveau mondial, Google conserve sa position de leader.

Si les dépôts de brevets ne mesurent pas directement la qualité de l'innovation, ils constituent des indicateurs précieux des priorités de recherche et des investissements stratégiques. L'ascension de Google dans ces classements s'aligne sur ses initiatives plus larges en matière d'IA, y compris des investissements substantiels dans les technologies d'IA générative et agentique. Les améliorations et nouveautés de Gemma 3n semblent être parmi les résultats de ces initiatives.

Présentation des nouveautés de Gemma 3n

MatFormer : un modèle, plusieurs tailles

Au cœur de Gemma 3n se trouve l'architecture MatFormer (Matryoshka Transformer), un nouveau transformateur imbriqué conçu pour l'inférence élastique. Considérez-le comme des poupées russes : un modèle plus grand contient des versions plus petites et entièrement fonctionnelles de lui-même. Cette approche étend le concept d'apprentissage de la représentation Matryoshka des simples intégrations à tous les composants du transformateur.

Pendant l'entraînement MatFormer du modèle à 4 milliards de paramètres effectifs (E4B), un sous-modèle à 2 milliards de paramètres effectifs (E2B) est simultanément optimisé en son sein, comme le montre la figure ci-dessus. Cela offre aujourd'hui aux développeurs deux fonctionnalités et cas d'utilisation puissants :

1 : Modèles pré-extraits : vous pouvez télécharger et utiliser directement soit le modèle E4B principal pour bénéficier des capacités les plus élevées, soit le sous-modèle E2B autonome offrant une inférence jusqu'à deux fois plus rapide.

2 : Tailles personnalisées avec Mix-n-Match : pour un contrôle plus granulaire adapté aux contraintes matérielles spécifiques, vous pouvez créer une gamme de modèles de taille personnalisée entre E2B et E4B à l'aide d'une méthode appelée Mix-n-Match. Cette technique vous permet de découper précisément les paramètres du modèle E4B, principalement en ajustant la dimension cachée du réseau feed forward par couche (de 8192 à 16384) et en sautant sélectivement certaines couches. Google lance MatFormer Lab, un outil qui montre comment récupérer ces modèles optimaux, qui ont été identifiés en évaluant divers paramètres sur des benchmarks tels que MMLU.

À l'avenir, l'architecture MatFormer ouvrira également la voie à l'exécution élastique. Bien qu'elle ne fasse pas partie des implémentations lancées aujourd'hui, cette fonctionnalité permet à un seul modèle E4B déployé de basculer dynamiquement entre les chemins d'inférence E4B et E2B à la volée, ce qui permet d'optimiser en temps réel les performances et l'utilisation de la mémoire en fonction de la tâche en cours et de la charge du dispositif.

Intégrations par couche (PLE) : pour une meilleure efficacité mémoire

Les modèles Gemma 3n intègrent des intégrations par couche (PLE). Cette innovation est conçue pour le déploiement sur appareil, car elle améliore considérablement la qualité du modèle sans augmenter l'empreinte mémoire haute vitesse requise sur l'accélérateur de votre appareil (GPU/TPU).

Alors que les modèles Gemma 3n E2B et E4B ont respectivement un nombre total de paramètres de 5B et 8B, PLE permet à une partie importante de ces paramètres (les intégrations associées à chaque couche) d'être chargés et calculés efficacement sur le CPU. Cela signifie que seuls les poids du transformateur central (environ 2 milliards pour E2B et 4 milliards pour E4B) doivent être stockés dans la mémoire de l'accélérateur (VRAM), généralement plus limitée.

Partage du cache KV : traitement plus rapide des contextes longs

Le traitement d'entrées longues, telles que les séquences dérivées de flux audio et vidéo, est essentiel pour de nombreuses applications multimodales avancées sur appareil. Gemma 3n introduit le partage de cache KV, une fonctionnalité conçue pour accélérer considérablement le temps de réponse des applications de streaming.

Le partage de cache KV optimise la manière dont le modèle gère la phase initiale de traitement des entrées (souvent appelée phase de « préremplissage »). Les clés et les valeurs de la couche intermédiaire provenant de l'attention locale et globale sont directement partagées avec toutes les couches supérieures, ce qui permet d'améliorer de manière notable les performances de préremplissage par rapport à Gemma 3 4B. Cela signifie que le modèle peut ingérer et comprendre des séquences de prompt longues beaucoup plus rapidement qu'auparavant.

Compréhension audio : introduction de la reconnaissance vocale et de la traduction

Gemma 3n utilise un encodeur audio avancé basé sur le modèle Universal Speech Model (USM). L'encodeur génère un jeton toutes les 160 ms d'audio (environ 6 jetons par seconde), qui sont ensuite intégrés comme entrée au modèle linguistique, fournissant une représentation granulaire du contexte sonore.

Cette capacité audio intégrée débloque des fonctionnalités clés pour le développement sur appareil, notamment :

Reconnaissance vocale automatique (ASR) : permet une transcription haute qualité de la parole en texte directement sur l'appareil.
Traduction automatique de la parole (AST) : traduit la langue parlée en texte dans une autre langue.

Google annonce des résultats AST particulièrement bons pour la traduction entre l'anglais et l'espagnol, le français, l'italien et le portugais, ce qui offre un grand potentiel pour les développeurs qui ciblent des applications dans ces langues. Pour des tâches telles que la traduction de la parole, l'utilisation de la chaîne de pensée peut améliorer considérablement les résultats. Voici un exemple :

Code :

Sélectionner tout

1
2
3
4
<bos><start_of_turn>user
Transcribe the following speech segment in Spanish, then translate it into English: 
<start_of_audio><end_of_turn>
<start_of_turn>model

Au moment de son lancement, l'encodeur Gemma 3n est implémenté pour traiter des clips audio d'une durée maximale de 30 secondes. Cependant, il ne s'agit pas d'une limitation fondamentale. L'encodeur audio sous-jacent est un encodeur de streaming, capable de traiter des fichiers audio de longueur arbitraire grâce à une formation audio supplémentaire de longue durée. Les implémentations ultérieures permettront de débloquer des applications de streaming longue durée à faible latence.

MobileNet-V5 : nouveau codeur de vision

Outre ses capacités audio intégrées, Gemma 3n dispose d'un nouveau codeur de vision hautement efficace, MobileNet-V5-300M, qui offre des performances de pointe pour les tâches multimodales sur les appareils périphériques.

Conçu pour offrir flexibilité et puissance sur du matériel limité, MobileNet-V5 offre aux développeurs :

Plusieurs résolutions d'entrée : prend en charge nativement les résolutions 256x256, 512x512 et 768x768 pixels, ce qui vous permet d'équilibrer les performances et les détails pour vos applications spécifiques.
Une compréhension visuelle étendue : co-entraîné sur des ensembles de données multimodales exhaustifs, il excelle dans un large éventail de tâches de compréhension d'images et de vidéos.
Un débit élevé : traite jusqu'à 60 images par seconde sur un Google Pixel, permettant une analyse vidéo en temps réel sur l'appareil et des expériences interactives.

Ce niveau de performance est atteint grâce à de multiples améliorations architecturales, notamment :

Une base avancée de blocs MobileNet-V4 (y compris Universal Inverted Bottlenecks et Mobile MQA).
Une architecture considérablement améliorée, avec un modèle pyramidal profond hybride 10 fois plus grand que la plus grande variante MobileNet-V4.
Un nouvel adaptateur Multi-Scale Fusion VLM qui améliore la qualité des jetons pour une meilleure précision et efficacité.

Bénéficiant de conceptions architecturales novatrices et de techniques de distillation avancées, MobileNet-V5-300M surpasse la base de référence SoViT dans Gemma 3 (entraînée avec SigLip, sans distillation). Sur un Google Pixel Edge TPU, il offre une accélération de 13 fois avec quantification (6,5 fois sans), nécessite 46 % de paramètres en moins et occupe 4 fois moins de mémoire, tout en offrant une précision nettement supérieure pour les tâches de vision-langage.

Pour le lancement de Gemma 3n, Google commente :

Rendre Gemma 3n accessible dès le premier jour a été une priorité. Nous sommes fiers de nous associer à de nombreux développeurs open source exceptionnels afin d'assurer une large prise en charge des outils et plateformes populaires, notamment grâce aux contributions des équipes derrière AMD, Axolotl, Docker, Hugging Face, llama.cpp, LMStudio, MLX, NVIDIA, Ollama, RedHat, SGLang, Unsloth et vLLM.

Mais cet écosystème n'est qu'un début. La véritable puissance de cette technologie réside dans ce que vous allez créer avec elle. C'est pourquoi nous lançons le Gemma 3n Impact Challenge. Votre mission : utiliser les capacités uniques de Gemma 3n en matière de multimodalité, hors ligne et sur appareil, pour créer un produit qui contribuera à un monde meilleur. Avec 150 000 dollars de prix à la clé, nous recherchons une vidéo captivante et une démonstration impressionnante qui montrent un impact réel. Rejoignez le défi et contribuez à construire un avenir meilleur.

Source : Google

Et vous ?

Pensez-vous que ces améliorations sont crédibles ou pertinentes ?

Quel est votre avis sur ce nouveau modèle ?

Voir aussi :

Google lance Gemma 3 : "le modèle d'IA le plus puissant que vous pouvez faire tourner sur un GPU", une IA open source avec un contexte de 128K optimisée pour fonctionner sur presque tout, du GPU au smartphone

Google affirme que le fonctionnement de modèles d'IA sur les téléphones consomme énormément de mémoire vive. La disponibilité de Gemini Nano sur le Pixel 8 pose des questions sur la transparence

Google I/O 2025 : toutes les annonces majeures qu'il faut retenir de la conférence centrée sur l'IA. Google présente une architecture numérique tournée vers l'IA générative avec Gemini comme OS invisible

Vous avez lu gratuitement 27 980 articles depuis plus d'un an.
Soutenez le club developpez.com en souscrivant un abonnement pour que nous puissions continuer à vous proposer des publications.

Une erreur dans cette actualité ? Signalez-nous-la !

Votre nom : Votre e-mail :

Décrivez l'erreur que vous souhaitez porter à notre connaissance :

Identifiez-vous

Créer un compte

Google a annoncé la sortie complète de Gemma 3n, la dernière version de son modèle d'IA ouvert capable de fonctionner sur un seul GPU

"Gemma 3n représente une avancée majeure pour l'IA sur appareil"

Identifiant
Mot de passe

Mot de passe oublié ?

Identifiez-vous

Créer un compte

Google a annoncé la sortie complète de Gemma 3n, la dernière version de son modèle d'IA ouvert capable de fonctionner sur un seul GPU "Gemma 3n représente une avancée majeure pour l'IA sur appareil"

Google a annoncé la sortie complète de Gemma 3n, la dernière version de son modèle d'IA ouvert capable de fonctionner sur un seul GPU

"Gemma 3n représente une avancée majeure pour l'IA sur appareil"