DiffusionGemma : Google DeepMind lance un modèle doté d'une nouvelle architecture appelée « diffusion parallèle » qui génère du texte en bloc et permet d'exécuter l'IA quatre fois plus rapidement en local

Le 11 juin 2026 à 13:36, par Mathis Lucas

277PARTAGES

DiffusionGemma : Google DeepMind lance un modèle doté d'une nouvelle architecture appelée « diffusion parallèle » qui génère du texte en bloc et permet d'exécuter l'IA quatre fois plus rapidement en local

Google DeepMind lance un nouveau modèle d'IA appelé DiffusionGemma. Ce dernier utilise la diffusion pour générer du texte en bloc plutôt que mot à mot. Cette approche technique permet de multiplier par quatre la vitesse de traitement sur du matériel local, atteignant des performances impressionnantes sur des GPU grand public. Contrairement aux modèles classiques, ce système traite les données en parallèle, ce qui le rend très efficace pour des tâches complexes comme la résolution de Sudokus ou l'édition de code. Cette technologie est plus sujette aux erreurs que les méthodes traditionnelles, mais optimise l'utilisation de la puissance de calcul.

DiffusionGemma de Google DeepMind est un nouveau modèle issu de la quatrième génération de sa famille de modèles open source Gemma. Ce modèle expérimental, disponible sous licence libre Apache 2.0 via la plateforme Hugging Face, se distingue fondamentalement des autres systèmes d'IA par sa méthode de génération de texte. DiffusionGemma explore la diffusion de texte, une approche exceptionnellement rapide de la génération de texte.

Conçu en collaboration avec Nvidia, ce modèle « Mixture of Experts » (MoE) de 26 milliards de paramètres a été spécifiquement optimisé pour offrir une vitesse et une efficacité redoutables lors de son exécution sur du matériel local, ouvrant ainsi la voie à de nouvelles possibilités pour les développeurs.

Une architecture révolutionnaire basée sur la diffusion parallèle

Google DeepMind revendique une percée dans la génération de texte, rendant son modèle nettement plus rapide que la concurrence. La grande majorité des grands modèles de langage (LLM) actuels génèrent du texte de manière autorégressive, c'est-à-dire qu'ils prédisent et produisent les mots de gauche à droite, un token après l'autre. DiffusionGemma rompt avec cette approche séquentielle en s'inspirant des modèles de génération d'images.

Le modèle commence par générer une zone de texte remplie de tokens de substitution (ou "bruit"), puis parcourt cette zone à de multiples reprises pour affiner progressivement les prédictions, produisant au final un grand bloc de texte en une seule fois. Cette nouvelle approche permet de générer jusqu'à 256 tokens en parallèle, déplaçant ainsi le goulot d'étranglement matériel de la bande passante de la mémoire vers la puissance de calcul brute.

Sur le plan technique, DiffusionGemma exploite une architecture Mixture of Experts comptant 26 milliards de paramètres au total, mais n'en activant que 3,8 milliards lors de l'inférence. Cette légèreté relative lui permet de fonctionner parfaitement dans les 18 Go de mémoire vive d'une carte graphique haut de gamme. En somme, selon le billet de blogue de Google DeepMind, les caractéristiques de ce nouveau modèle sont les suivantes :

génération parallèle : DiffusionGemma élimine le bruit sur jusqu’à 256 tokens par étape au lieu de les prédire un par un ;
basé sur Gemma 4 : DiffusionGemma s'appuie sur Gemma 4, un modèle de type « mixture-of-experts » de 26 milliards de paramètres qui n'active que 3,8 milliards de paramètres par étape, associant une tête de diffusion à l'architecture Gemma 4 de Google ;
des performances jusqu'à 4 fois plus rapides : ce gain de vitesse permet une génération de texte rapide, là où la génération par un seul utilisateur se bloque généralement, sur du matériel local ;
open source et local : DiffusionGemma est un modèle à poids ouverts sous une licence Apache 2.0 permissive et fonctionne entièrement sur RTX et DGX Spark (sans cloud, sans coût par token) avec une prise en charge immédiate dans Hugging Face Transformers, vLLM et Unsloth.

Le modèle génère environ 700 tokens par seconde sur une carte RTX 5090 grand public, et dépasse les 1 000 tokens par seconde sur un accélérateur professionnel Nvidia H100. Cela représente un rendement environ quatre fois supérieur à celui des modèles Gemma autorégressifs de taille équivalente.

Cette génération parallèle et cette capacité à s'autocorriger sur de vastes ensembles de jetons confèrent au modèle des avantages uniques pour des tâches non linéaires complexes, telles que l'édition de texte en ligne, le séquençage moléculaire, la résolution de puzzles Sudoku ou encore la création de graphiques mathématiques. De plus, cette réduction drastique de la latence rend ce modèle idéal pour des usages interactifs comme le codage.

Les défis inhérents à l'approche par diffusion parallèle

Si cette technologie est prometteuse, Google admet qu'elle n'est pas encore prête à remplacer les modèles autorégressifs classiques dans les grands centres de données en raison de plusieurs limites. Le principal obstacle est un taux d'erreur plus élevé et plus punitif. Dans une image générée par l'IA, un pixel erroné passe inaperçu, mais le langage étant un système discret, un seul token textuel incorrect peut priver tout un paragraphe de son sens.

Par ailleurs, le modèle est inefficace pour les réponses courtes. Il gaspille en effet d'importantes ressources de calcul en effectuant un travail parallèle massif, même lorsqu'il s'agit de générer une réponse de seulement cinq mots, tâche qu'un modèle classique aurait accomplie très simplement en cinq étapes

L'offensive stratégique de Nvidia pour dominer l'exécution locale

L'optimisation de DiffusionGemma met en lumière la stratégie agressive de Nvidia sur le marché de l'inférence locale. En optimisant ce modèle pour l'ensemble de son écosystème matériel, allant des GPU grand public GeForce RTX aux systèmes professionnels DGX Spark et RTX PRO, Nvidia cherche à s'imposer comme la plateforme par défaut face aux entreprises de plus en plus soucieuses des coûts du cloud et de la confidentialité de leurs données.

Cette démarche est d'autant plus importante que des concurrents comme AMD, Intel et Apple avancent rapidement sur le marché de l'IA embarquée. Par ailleurs, la nature « open source » du modèle DiffusionGemma sert parfaitement le modèle économique de Nvidia : contrairement aux API fermées facturées à l'usage, Nvidia génère ses profits lorsque les développeurs achètent des cartes graphiques pour faire tourner ces modèles localement.

Ainsi, chaque modèle open source optimisé par l'entreprise devient un puissant argument de vente pour ses propres composants matériels. Ce modèle expérimental est désormais accessible en open source, offrant également aux chercheurs un outil puissant pour explorer de nouvelles frontières en IA.

L'IA commence à perdre de son élan et la bulle menace d'éclater

L'industrie de l'IA traverse une crise de viabilité financière majeure et la bulle a de moins en moins de chance de se maintenir. Dans un nouvel article, Edward Zitron réaffirme que l'industrie de l'IA est un gouffre financier insoutenable qui repose sur des projections absurdes et une dette abyssale. Alors que les entreprises recherchent désespérément un modèle économique rentable, l'analyste constate que toute l'industrie commence à ralentir.

Si l'on se fie aux données de Sightline Climate datant de février, 190 GW de centres de données sont prévus afin de répondre aux besoins énergétiques de l'IA. Par ailleurs, si l'on prend au pied de la lettre la déclaration du PDG de Nvidia, Jensen Huang, selon laquelle les centres de données coûteront entre 80 et 100 milliards de dollars par gigawatt, cela signifie que ces centres de données coûteront entre 9 500 et 15 000 milliards de dollars.

Pour justifier les investissements massifs actuels, notamment les 190 gigawatts de centres de données prévus coûtant potentiellement jusqu'à quinze mille milliards de dollars, le secteur devra générer plus de 3 000 milliards de dollars de revenus annuels d'ici 2030. Si les acteurs n'y parviennent pas, aucun des investissements en capital des centres de données n'aura de sens, et ni Anthropic ni OpenAI ne pourront honorer leurs engagements.

Les défenseurs de l'IA affirment souvent que le matériel coûtera moins cher à l'avenir ou que les entreprises sont déjà rentables sur l'inférence, c'est-à-dire l'utilisation des modèles. Cependant, l'analyste rejette cet argument, estimant que si le traitement des requêtes était réellement profitable, des acteurs comme Anthropic ne perdraient pas des milliards de dollars et ne chercheraient pas à imposer des abonnements mensuels coûteux à leurs clients.

Sources : Google, Nvidia

Et vous ?

Quel est votre avis sur le sujet ?

Que pensez-vous du nouveau modèle DiffusionGemma de Google DeepMind ?

Que pensez-vous de l'approche par diffusion parallèle sur laquelle est basée DiffusionGemma ?

L'architecture basée sur la diffusion parallèle comporte de nombreuses limites. Qu'en pensez-vous ?

Voir aussi

L'IA perd de son élan au moment même où les entreprises du secteur doivent accélérer pour éviter le désastre économique, la bulle spéculative exige une croissance de revenus irréaliste pour se maintenir

Le nouveau modèle Gemma 4 12B de Google est conçu pour fonctionner sur n'importe quel ordinateur portable doté de 16 Go de RAM, la moitié de l'empreinte mémoire totale de Gemma 4 26B MoE

Google DeepMind lance Gemma 4, qu'il présente comme son modèle ouvert le plus intelligent à ce jour, axé sur le raisonnement avancé, destiné aux développeurs, aux centres de données et aux smartphones

Vous avez lu gratuitement 3 117 articles depuis plus d'un an.
Soutenez le club developpez.com en souscrivant un abonnement pour que nous puissions continuer à vous proposer des publications.

Une erreur dans cette actualité ? Signalez-nous-la !

Votre nom : Votre e-mail :

Décrivez l'erreur que vous souhaitez porter à notre connaissance :

Identifiez-vous

Créer un compte

DiffusionGemma : Google DeepMind lance un modèle doté d'une nouvelle architecture appelée « diffusion parallèle » qui génère du texte en bloc et permet d'exécuter l'IA quatre fois plus rapidement en local

Identifiant
Mot de passe

Mot de passe oublié ?