IdentifiantMot de passe
Loading...
Mot de passe oublié ?Je m'inscris ! (gratuit)

Vous êtes nouveau sur Developpez.com ? Créez votre compte ou connectez-vous afin de pouvoir participer !

Vous devez avoir un compte Developpez.com et être connecté pour pouvoir participer aux discussions.

Vous n'avez pas encore de compte Developpez.com ? Créez-en un en quelques instants, c'est entièrement gratuit !

Si vous disposez déjà d'un compte et qu'il est bien activé, connectez-vous à l'aide du formulaire ci-dessous.

Identifiez-vous
Identifiant
Mot de passe
Mot de passe oublié ?
Créer un compte

L'inscription est gratuite et ne vous prendra que quelques instants !

Je m'inscris !

Le nouveau modèle Gemma 4 12B de Google est conçu pour fonctionner sur n'importe quel ordinateur portable doté de 16 Go de RAM
La moitié de l'empreinte mémoire totale de Gemma 4 26B MoE

Le , par Alex

29PARTAGES

6  0 
Le nouveau modèle Gemma 4 12B de Google est conçu pour fonctionner sur n'importe quel ordinateur portable doté de 16 Go de RAM, grâce à un nouveau schéma d'encodage et à la prédiction de jetons

Google a récemment annoncé la sortie d'un nouveau modèle Gemma 4, suffisamment efficace pour pouvoir fonctionner sur un ordinateur portable. Google affirme que Gemma 4 12B est unique car il vous suffit de disposer d'un ordinateur doté de 16 Go de mémoire vive (RAM) ou de mémoire vidéo (VRAM) pour fonctionner. Cela représente environ la moitié de l'empreinte mémoire totale de Gemma 4 26B MoE. Google affirme que le nouveau modèle est capable d’effectuer des raisonnements complexes en plusieurs étapes et des flux de travail agentiques qui nécessitaient auparavant les variantes plus volumineuses de Gemma. En outre, le modèle est également plus efficace grâce à une nouvelle approche de la multimodalité.

Google LLC est une multinationale américaine spécialisée dans les technologies de l'information, la publicité en ligne, les moteurs de recherche, la messagerie électronique, le cloud computing, les logiciels, l'informatique quantique, le commerce électronique, l'électronique grand public et l'intelligence artificielle (IA). Elle a été qualifiée de « société la plus puissante au monde » par la BBC, et figure parmi les marques les plus valorisées au monde. La société mère de Google, Alphabet Inc., a été décrite comme une entreprise de la « Big Tech ».

Gemma est une série de grands modèles de langage open source développés par Google DeepMind. Elle repose sur des technologies similaires à celles de Gemini. La première version a été publiée en février 2024, suivie de Gemma 2 en juin 2024, de Gemma 3 en mars 2025 et de Gemma 4 en avril 2026. Des variantes de Gemma ont également été développées, telles que le modèle vision-langage PaliGemma et le modèle MedGemma dédié aux consultations médicales.

L'essor de l'IA générative a fait grimper le coût de la mémoire en flèche, et Google joue un rôle clé dans cette tendance. Il est donc tout à fait logique que Google propose des modèles d'IA locaux moins gourmands en RAM. La société a récemment annoncé la sortie d'un nouveau modèle Gemma 4 qui comble une lacune dans la gamme lancée plus tôt cette année. Ce nouveau modèle est suffisamment efficace pour pouvoir fonctionner sur un ordinateur portable grand public tout à fait standard.

Lors de l'annonce, Google a déclaré : « Aujourd’hui, nous vous présentons Gemma 4 12B, notre dernier modèle conçu pour apporter une intelligence multimodale agentique directement sur les ordinateurs portables. Comblant le fossé entre notre E4B adapté à la périphérie et notre Mixture of Experts (MoE) 26B plus avancé, Gemma 4 12B intègre de puissantes capacités dans un encombrement mémoire réduit.

C’est également notre premier modèle de taille moyenne à intégrer des entrées audio natives. Grâce à la communauté des développeurs, les modèles Gemma 4 ont désormais dépassé les 150 millions de téléchargements. Vous avez tout créé, des bras robotiques portables pour l'assistance physique à la sécurité IA de niveau entreprise. Nous sommes impatients de découvrir ce que vous allez créer avec cette dernière nouveauté.
»


Présentation de Gemma 4 12B

Voici un aperçu des particularités de Gemma 4 12B :

- Une architecture unifiée innovante : pas d’encodeurs multimodaux. Les entrées visuelles et audio sont directement acheminées vers le cœur du LLM.
- Raisonnement avancé : des performances de référence proches de celles de notre modèle 26B, permettant un raisonnement puissant en plusieurs étapes et des workflows autonomes.
- Compatible avec les ordinateurs portables : suffisamment compact pour fonctionner localement avec seulement 16 Go de VRAM ou de mémoire unifiée.
- Ouvert et accessible : publié sous licence Apache 2.0 avec un support dans tout l'écosystème des développeurs.
- Prêt pour les générateurs : Gemma 4 12B est équipé de générateurs à prédiction multi-tokens (MTP) pour réduire la latence.

Ensemble, ces fonctionnalités apportent des capacités multimodales avancées au matériel courant sans sacrifier la vitesse ni le raisonnement. Selon Google, Gemma 4 12B offre des performances proches de celles du modèle Gemma MoE 26B plus volumineux sur les benchmarks standard, mais avec un encombrement mémoire total inférieur de plus de moitié. Suffisamment compact pour fonctionner en local sur des ordinateurs portables grand public dotés de 16 Go de RAM, il vous permet de profiter d’expériences multimodales et agentiques puissantes directement sur votre machine.


Ce qui distingue Gemma 4 12B, c’est son approche rationalisée du traitement des entrées visuelles et audio. Les modèles multimodaux traditionnels s’appuient généralement sur des encodeurs distincts pour traduire les images et l’audio avant de transmettre ces représentations au modèle linguistique. Comme ces encodeurs séparés ajoutent de la latence et augmentent l’utilisation de la mémoire, nous avons formé Gemma 4 12B avec une architecture sans encodeur afin d’intégrer directement les entrées audio et visuelles.

Pour les entrées multimodales de manière native, Google a remplacé l'encodeur visuel de Gemma 4 par un module d'intégration léger composé d'une simple multiplication matricielle, d'une intégration positionnelle et de normalisations. Cela permet au cœur du LLM de prendre en charge le traitement visuel. Google a également simplifié davantage le traitement audio, en supprimant complètement l'encodeur audio et en projetant le signal audio brut dans le même espace dimensionnel que les tokens de texte.


Cette annonce rappelle les déclarations de Geoffrey Hinton, le « parrain de l'IA ». Il a notamment estimé que Google est en train de rattraper OpenAI dans la course à l'intelligence artificielle (IA). Dans une interview accordée à Business Insider, lorsqu'il a été question de la position de Google par rapport à OpenAI, Hinton a déclaré : « Je pense qu'il est en fait plus surprenant que Google ait mis autant de temps à dépasser OpenAI. Je pense qu'à l'heure actuelle, ils commencent à le dépasser ».

Voici l'annonce de Google pour les développeurs :

Intégrez Gemma 4 12B à votre ordinateur portable : exploitez des flux de travail locaux et agentiques avec Google AI Edge

Le dernier modèle open source de Google DeepMind, Gemma 4 12B, est conçu pour apporter une intelligence multimodale et agentique directement sur votre ordinateur portable. En combinant les atouts du modèle avec la pile Google AI Edge, vous pouvez immédiatement vous lancer pour créer et expérimenter localement, sur des machines courantes (voir la fiche du modèle pour les spécifications requises).

Cette combinaison modèle-runtime débloque de puissantes capacités sur l'appareil, allant du traitement autonome des données et de la génération d'informations visuelles riches à la création de pages web entièrement fonctionnelles et à l'exécution d'outils courants. Vous pouvez commencer dès maintenant à interagir avec Gemma 4 12B via Google AI Edge :

- Découvrez Gemma avec Google AI Edge Gallery, notre application de démonstration d'IA locale, désormais disponible sur macOS. Avec le modèle 12B, vous pouvez générer et exécuter des scripts à la volée pour des tâches telles que l'analyse de données.

- L'application de dictée vocale sur appareil Google AI Edge Eloquent est désormais disponible sur macOS. Nous avons ajouté la possibilité de peaufiner et de réécrire du texte de manière interactive via des commandes vocales, entièrement sur l'appareil, grâce au nouveau modèle Gemma 4 12B.

- LiteRT-LM peut désormais servir des points de terminaison locaux compatibles avec l'industrie directement depuis votre terminal via la nouvelle commande « serve » dans la CLI LiteRT-LM. Utilisée avec Gemma 4 12B, cette option est très performante et efficace pour alimenter des outils, des harnais et des workflows agentiques entièrement locaux.

Codage avec Google AI Edge Gallery sur macOS

L'application Google AI Edge Gallery, désormais disponible sur macOS, met en avant les capacités de codage de Gemma 4 12B, vous permettant d'extraire des informations pertinentes de vos données directement sur votre appareil. Grâce à une interface fluide, vous pouvez simplement décrire vos objectifs analytiques en langage naturel. Dans l’exemple ci-dessous, nous avons demandé au modèle d’« utiliser un programme Python pour générer un graphique au format PNG comparant les 10 prénoms féminins les plus populaires en 2024 et en 2025 », à partir de deux fichiers texte contenant les données. En réponse, le modèle génère dynamiquement du code Python, l'exécute localement et convertit les données brutes en visualisations et informations claires et faciles à comprendre.


En matière de codage avancé, Gemma 4 12B ne se contente pas d'écrire des scripts. Lors d'une tâche complexe de rendu 3D, nous avons observé qu'à partir d'une seule instruction de l'utilisateur, le modèle pouvait générer un rendu de canard en caoutchouc avec spécification des dépendances, générer du code et s'autocorriger, le tout en un seul tour.


Dictée et édition vocale avec Google AI Edge Eloquent

Google AI Edge Eloquent, notre application de dictée et d'édition alimentée par l'IA, transforme de manière transparente vos pensées brutes et non structurées en un texte soigné. La nouvelle version de bureau pour macOS fonctionne à 100 % sur l'appareil pour l'ensemble des fonctionnalités, garantissant une expérience puissante et entièrement hors ligne. Grâce à un raccourci clavier pratique et personnalisable, Eloquent vous permet d'utiliser la dictée vocale dans n'importe quelle application sur votre Mac. De plus, Eloquent prend en charge la transcription entièrement locale de vos fichiers audio ou vidéo.

En tirant parti de la puissance de raisonnement avancée de Gemma 4 12B, nous lançons Voice Edit, une nouvelle fonctionnalité qui vous permet de dicter simplement des commandes vocales pour transformer n'importe quel texte dans votre flux de travail sur ordinateur. Par exemple, vous pouvez sélectionner un paragraphe et dire « restructurer ces notes en un résumé exécutif » ou « traduire ceci en hindi ». Avec Gemma 4 12B, nous constatons une avancée considérable par rapport aux modèles précédents, avec une meilleure exécution des instructions, un respect plus strict du périmètre et une amélioration de plus de 60 % de la qualité globale.

Développez avec LiteRT-LM, y compris le service local prêt à l’emploi

La CLI LiteRT-LM fournit un outil léger et sans code pour exécuter des modèles linguistiques en local. Nous étendons désormais cet outil avec la commande « serve », permettant à la CLI de fonctionner comme un serveur LLM local prêt à l'emploi. Utilisez cette fonctionnalité avec Gemma 4 12B pour diriger n'importe quel outil, SDK ou framework standard (tel que OpenClaw, Hermes, OpenCode, Pi, ou des extensions populaires comme Continue et Aider) directement vers votre point de terminaison local.

Code : Sélectionner tout
1
2
3
4
5
# Import the Gemma 4 12B model as "gemma4-12b"
litert-lm import --from-huggingface-repo=litert-community/gemma-4-12B-it-litert-lm gemma-4-12B-it.litertlm gemma4-12b
 
# Start the OpenAI-compatible server
litert-lm serve


Code : Sélectionner tout
1
2
3
4
5
6
curl http://localhost:9379/v1/chat/completions \
  -H "Content-Type: application/json" \
  -d '{
    "model": "gemma4-12b,gpu",
    "messages": [{"role": "user", "content": "Hello!"}]
  }'


Prêt à l'emploi sur les ordinateurs portables courants

L'exécution de Gemma 4 12B rend les capacités d'IA intégrées largement accessibles sur les ordinateurs portables courants. Consultez la fiche du modèle LiteRT-LM pour connaître les benchmarks de performances et de mémoire. En associant les puissantes capacités de ce nouveau modèle aux performances optimisées et à la facilité d'utilisation de Google AI Edge, vous pouvez créer des agents locaux multi-tours, analyser des données dans Google AI Edge Gallery ou rationaliser votre écriture avec Google AI Edge Eloquent. De plus, vos données restent sur votre appareil tout en conservant une réactivité, une utilité et une rentabilité fiables.

Sources : Présentation de Gemma 4 12B, Annonce de Google pour les développeurs

Et vous ?

Pensez-vous que cette annonce est crédible ou pertinente ?
Quel est votre avis sur le sujet ?

Voir aussi :

Google DeepMind lance Gemma 4, qu'il présente comme son modèle ouvert le plus intelligent à ce jour, axé sur le raisonnement avancé, destiné aux développeurs, aux centres de données et aux smartphones

Perplexity annonce l'introduction de l'inférence hybride agentique pour Perplexity Computer : la capacité de répartir les tâches entre des modèles locaux et des modèles cloud, pour réduire les coûts

Nvidia se lance à l'assaut du marché des ordinateurs personnels et devrait présenter ses tout premiers ordinateurs Windows équipés de ses propres puces processeurs à haute efficacité
Vous avez lu gratuitement 158 articles depuis plus d'un an.
Soutenez le club developpez.com en souscrivant un abonnement pour que nous puissions continuer à vous proposer des publications.

Une erreur dans cette actualité ? Signalez-nous-la !

Avatar de der§en
Membre expérimenté https://www.developpez.com
Le 04/06/2026 à 21:42
Mon portable a 64 go de ram et 6 go de vram, quel serait selon vous la meilleur LLM que je pourrais faire tourner dessus ?
0  0 
Avatar de d_d_v
Membre expérimenté https://www.developpez.com
Le 16/06/2026 à 9:25
L'article ne précise pas ce qu'il faut comme type de carte graphique.
0  0 
Avatar de Fagus
Membre expert https://www.developpez.com
Le 06/06/2026 à 18:06
Citation Envoyé par der§en Voir le message
Mon portable a 64 go de ram et 6 go de vram, quel serait selon vous la meilleur LLM que je pourrais faire tourner dessus ?
Essayez un sélecteur de modèles comme celui là https://github.com/AlexsJones/llmfit ou juste un essai empirique d'un modèle local.

Le problème est que l'architecture PC est inadaptée aux LLM.
Le GPU est efficace en calcul mais a peu de VRAM. On peut utiliser la RAM, mais il y a un problème de goulot d'étranglement au transfert des données qui plombe les perf.
Si le CPU est énorme, il peut calculer avec la RAM mais les CPU sont inefficaces sur ces tâches .

Apple est très en avance et pour longtemps . tout le monde se moquait de leur mémoire unifiée mais elle est d'accès rapide par la CPU et le GPU. Ça coûte maintenant moins cher et c'est beaucoup moins limitant d'acheter un mac pour faire de l'inférence qu'un gros PC avec une grosse carte graphique.
0  2