Le nouveau modèle Gemma 4 12B de Google est conçu pour fonctionner sur n'importe quel ordinateur portable doté de 16 Go de RAM

La moitié de l'empreinte mémoire totale de Gemma 4 26B MoE

Le 4 juin 2026 à 14:30, par Alex

143PARTAGES

Google a récemment annoncé la sortie d'un nouveau modèle Gemma 4, suffisamment efficace pour pouvoir fonctionner sur un ordinateur portable. Google affirme que Gemma 4 12B est unique car il vous suffit de disposer d'un ordinateur doté de 16 Go de mémoire vive (RAM) ou de mémoire vidéo (VRAM) pour fonctionner. Cela représente environ la moitié de l'empreinte mémoire totale de Gemma 4 26B MoE. Google affirme que le nouveau modèle est capable d’effectuer des raisonnements complexes en plusieurs étapes et des flux de travail agentiques qui nécessitaient auparavant les variantes plus volumineuses de Gemma. En outre, le modèle est également plus efficace grâce à une nouvelle approche de la multimodalité.

Google LLC est une multinationale américaine spécialisée dans les technologies de l'information, la publicité en ligne, les moteurs de recherche, la messagerie électronique, le cloud computing, les logiciels, l'informatique quantique, le commerce électronique, l'électronique grand public et l'intelligence artificielle (IA). Elle a été qualifiée de « société la plus puissante au monde » par la BBC, et figure parmi les marques les plus valorisées au monde. La société mère de Google, Alphabet Inc., a été décrite comme une entreprise de la « Big Tech ».

Gemma est une série de grands modèles de langage open source développés par Google DeepMind. Elle repose sur des technologies similaires à celles de Gemini. La première version a été publiée en février 2024, suivie de Gemma 2 en juin 2024, de Gemma 3 en mars 2025 et de Gemma 4 en avril 2026. Des variantes de Gemma ont également été développées, telles que le modèle vision-langage PaliGemma et le modèle MedGemma dédié aux consultations médicales.

L'essor de l'IA générative a fait grimper le coût de la mémoire en flèche, et Google joue un rôle clé dans cette tendance. Il est donc tout à fait logique que Google propose des modèles d'IA locaux moins gourmands en RAM. La société a récemment annoncé la sortie d'un nouveau modèle Gemma 4 qui comble une lacune dans la gamme lancée plus tôt cette année. Ce nouveau modèle est suffisamment efficace pour pouvoir fonctionner sur un ordinateur portable grand public tout à fait standard.

Lors de l'annonce, Google a déclaré : « Aujourd’hui, nous vous présentons Gemma 4 12B, notre dernier modèle conçu pour apporter une intelligence multimodale agentique directement sur les ordinateurs portables. Comblant le fossé entre notre E4B adapté à la périphérie et notre Mixture of Experts (MoE) 26B plus avancé, Gemma 4 12B intègre de puissantes capacités dans un encombrement mémoire réduit.

C’est également notre premier modèle de taille moyenne à intégrer des entrées audio natives. Grâce à la communauté des développeurs, les modèles Gemma 4 ont désormais dépassé les 150 millions de téléchargements. Vous avez tout créé, des bras robotiques portables pour l'assistance physique à la sécurité IA de niveau entreprise. Nous sommes impatients de découvrir ce que vous allez créer avec cette dernière nouveauté. »

Présentation de Gemma 4 12B

Voici un aperçu des particularités de Gemma 4 12B :

- Une architecture unifiée innovante : pas d’encodeurs multimodaux. Les entrées visuelles et audio sont directement acheminées vers le cœur du LLM.
- Raisonnement avancé : des performances de référence proches de celles de notre modèle 26B, permettant un raisonnement puissant en plusieurs étapes et des workflows autonomes.
- Compatible avec les ordinateurs portables : suffisamment compact pour fonctionner localement avec seulement 16 Go de VRAM ou de mémoire unifiée.
- Ouvert et accessible : publié sous licence Apache 2.0 avec un support dans tout l'écosystème des développeurs.
- Prêt pour les générateurs : Gemma 4 12B est équipé de générateurs à prédiction multi-tokens (MTP) pour réduire la latence.

Ensemble, ces fonctionnalités apportent des capacités multimodales avancées au matériel courant sans sacrifier la vitesse ni le raisonnement. Selon Google, Gemma 4 12B offre des performances proches de celles du modèle Gemma MoE 26B plus volumineux sur les benchmarks standard, mais avec un encombrement mémoire total inférieur de plus de moitié. Suffisamment compact pour fonctionner en local sur des ordinateurs portables grand public dotés de 16 Go de RAM, il vous permet de profiter d’expériences multimodales et agentiques puissantes directement sur votre machine.

Ce qui distingue Gemma 4 12B, c’est son approche rationalisée du traitement des entrées visuelles et audio. Les modèles multimodaux traditionnels s’appuient généralement sur des encodeurs distincts pour traduire les images et l’audio avant de transmettre ces représentations au modèle linguistique. Comme ces encodeurs séparés ajoutent de la latence et augmentent l’utilisation de la mémoire, nous avons formé Gemma 4 12B avec une architecture sans encodeur afin d’intégrer directement les entrées audio et visuelles.

Pour les entrées multimodales de manière native, Google a remplacé l'encodeur visuel de Gemma 4 par un module d'intégration léger composé d'une simple multiplication matricielle, d'une intégration positionnelle et de normalisations. Cela permet au cœur du LLM de prendre en charge le traitement visuel. Google a également simplifié davantage le traitement audio, en supprimant complètement l'encodeur audio et en projetant le signal audio brut dans le même espace dimensionnel que les tokens de texte.

Cette annonce rappelle les déclarations de Geoffrey Hinton, le « parrain de l'IA ». Il a notamment estimé que Google est en train de rattraper OpenAI dans la course à l'intelligence artificielle (IA). Dans une interview accordée à Business Insider, lorsqu'il a été question de la position de Google par rapport à OpenAI, Hinton a déclaré : « Je pense qu'il est en fait plus surprenant que Google ait mis autant de temps à dépasser OpenAI. Je pense qu'à l'heure actuelle, ils commencent à le dépasser ».

Voici l'annonce de Google pour les développeurs :

Intégrez Gemma 4 12B à votre ordinateur portable : exploitez des flux de travail locaux et agentiques avec Google AI Edge

Le dernier modèle open source de Google DeepMind, Gemma 4 12B, est conçu pour apporter une intelligence multimodale et agentique directement sur votre ordinateur portable. En combinant les atouts du modèle avec la pile Google AI Edge, vous pouvez immédiatement vous lancer pour créer et expérimenter localement, sur des machines courantes (voir la fiche du modèle pour les spécifications requises).

Cette combinaison modèle-runtime débloque de puissantes capacités sur l'appareil, allant du traitement autonome des données et de la génération d'informations visuelles riches à la création de pages web entièrement fonctionnelles et à l'exécution d'outils courants. Vous pouvez commencer dès maintenant à interagir avec Gemma 4 12B via Google AI Edge :

- Découvrez Gemma avec Google AI Edge Gallery, notre application de démonstration d'IA locale, désormais disponible sur macOS. Avec le modèle 12B, vous pouvez générer et exécuter des scripts à la volée pour des tâches telles que l'analyse de données.

- L'application de dictée vocale sur appareil Google AI Edge Eloquent est désormais disponible sur macOS. Nous avons ajouté la possibilité de peaufiner et de réécrire du texte de manière interactive via des commandes vocales, entièrement sur l'appareil, grâce au nouveau modèle Gemma 4 12B.

- LiteRT-LM peut désormais servir des points de terminaison locaux compatibles avec l'industrie directement depuis votre terminal via la nouvelle commande « serve » dans la CLI LiteRT-LM. Utilisée avec Gemma 4 12B, cette option est très performante et efficace pour alimenter des outils, des harnais et des workflows agentiques entièrement locaux.

Codage avec Google AI Edge Gallery sur macOS

L'application Google AI Edge Gallery, désormais disponible sur macOS, met en avant les capacités de codage de Gemma 4 12B, vous permettant d'extraire des informations pertinentes de vos données directement sur votre appareil. Grâce à une interface fluide, vous pouvez simplement décrire vos objectifs analytiques en langage naturel. Dans l’exemple ci-dessous, nous avons demandé au modèle d’« utiliser un programme Python pour générer un graphique au format PNG comparant les 10 prénoms féminins les plus populaires en 2024 et en 2025 », à partir de deux fichiers texte contenant les données. En réponse, le modèle génère dynamiquement du code Python, l'exécute localement et convertit les données brutes en visualisations et informations claires et faciles à comprendre.

En matière de codage avancé, Gemma 4 12B ne se contente pas d'écrire des scripts. Lors d'une tâche complexe de rendu 3D, nous avons observé qu'à partir d'une seule instruction de l'utilisateur, le modèle pouvait générer un rendu de canard en caoutchouc avec spécification des dépendances, générer du code et s'autocorriger, le tout en un seul tour.

...

La fin de cet article est réservée aux abonnés. Soutenez le Club Developpez.com en prenant un abonnement pour que nous puissions continuer à vous proposer des publications.

Une erreur dans cette actualité ? Signalez-nous-la !

Votre nom : Votre e-mail :

Décrivez l'erreur que vous souhaitez porter à notre connaissance :

Identifiez-vous

Créer un compte

Le nouveau modèle Gemma 4 12B de Google est conçu pour fonctionner sur n'importe quel ordinateur portable doté de 16 Go de RAM

La moitié de l'empreinte mémoire totale de Gemma 4 26B MoE

Identifiant
Mot de passe

Mot de passe oublié ?

Identifiez-vous

Créer un compte

Le nouveau modèle Gemma 4 12B de Google est conçu pour fonctionner sur n'importe quel ordinateur portable doté de 16 Go de RAM La moitié de l'empreinte mémoire totale de Gemma 4 26B MoE

Le nouveau modèle Gemma 4 12B de Google est conçu pour fonctionner sur n'importe quel ordinateur portable doté de 16 Go de RAM

La moitié de l'empreinte mémoire totale de Gemma 4 26B MoE