IdentifiantMot de passe
Loading...
Mot de passe oublié ?Je m'inscris ! (gratuit)

Vous êtes nouveau sur Developpez.com ? Créez votre compte ou connectez-vous afin de pouvoir participer !

Vous devez avoir un compte Developpez.com et être connecté pour pouvoir participer aux discussions.

Vous n'avez pas encore de compte Developpez.com ? Créez-en un en quelques instants, c'est entièrement gratuit !

Si vous disposez déjà d'un compte et qu'il est bien activé, connectez-vous à l'aide du formulaire ci-dessous.

Identifiez-vous
Identifiant
Mot de passe
Mot de passe oublié ?
Créer un compte

L'inscription est gratuite et ne vous prendra que quelques instants !

Je m'inscris !

Google a annoncé la sortie complète de Gemma 3n, la dernière version de son modèle d'IA ouvert capable de fonctionner sur un seul GPU
"Gemma 3n représente une avancée majeure pour l'IA sur appareil"

Le , par Alex

77PARTAGES

3  0 
Google a annoncé la sortie complète de Gemma 3n. Google affirme : "Gemma 3n représente une avancée majeure pour l'IA sur appareil, apportant de puissantes capacités multimodales aux appareils périphériques avec des performances qui n'étaient auparavant disponibles que dans les modèles de pointe basés sur le cloud de l'année dernière." Gemma 3n intègre des composants novateurs tels que l'architecture MatFormer pour la flexibilité de calcul, Per Layer Embeddings (PLE) pour l'efficacité de la mémoire, LAuReL et AltUp pour l'efficacité architecturale, ainsi que de nouveaux encodeurs audio et de vision basés sur MobileNet-v5 optimisés pour les cas d'utilisation sur appareil.

Le premier modèle Gemma a été lancé au début de l'année dernière et s'est depuis développé pour former un Gemmaverse avec plus de 160 millions de téléchargements cumulés. Cet écosystème comprend une famille de plus d'une douzaine de modèles spécialisés pour différents types d'applications. Par exemple, Roboflow a utilisé le modèle pour développer une vision par ordinateur pour les entreprises.

En mai 2025, Google a annoncé en avant-première Gemma 3n, la dernière version de son modèle d'IA ouvert capable de fonctionner sur un seul GPU. Selon Google, Gemma 3n est conçue pour fonctionner efficacement sur les smartphones, ordinateurs portables et tablettes avec seulement un seul GPU. Gemma 3n serait capable de traiter du texte, des images et, à terme, de l'audio et de la vidéo directement sur les appareils sans nécessiter du cloud computing.

Récemment, Google a annoncé la sortie complète de Gemma 3n. Si l'aperçu a donné un avant-goût du modèle, c'est maintenant que Google dévoile toute la performance de cette architecture axée sur les appareils mobiles. Gemma 3n est prise en charge par les outils tels que Hugging Face Transformers, llama.cpp, Google AI Edge, Ollama, MLX et bien d'autres, ce qui vous permet de l'ajuster et de la déployer pour vos applications spécifiques sur appareil.


Google affirme : "Gemma 3n représente une avancée majeure pour l'IA sur appareil, apportant de puissantes capacités multimodales aux appareils périphériques avec des performances qui n'étaient auparavant disponibles que dans les modèles de pointe basés sur le cloud de l'année dernière."

Voici les nouveautés qu'apporteraient Gemma 3n :

  • Multimodal de par sa conception : Gemma 3n prend en charge nativement les entrées image, audio, vidéo et texte, ainsi que les sorties texte.
  • Optimisé pour les appareils : conçus dans un souci d'efficacité, les modèles Gemma 3n sont disponibles en deux tailles en fonction des paramètres effectifs : E2B et E4B. Bien que leur nombre de paramètres bruts soit respectivement de 5B et 8B, des innovations architecturales leur permettent de fonctionner avec une empreinte mémoire comparable à celle des modèles traditionnels 2B et 4B, avec seulement 2 Go (E2B) et 3 Go (E4B) de mémoire.
  • Nouvelle architecture : Gemma 3n intègre des composants novateurs tels que l'architecture MatFormer pour la flexibilité de calcul, Per Layer Embeddings (PLE) pour l'efficacité de la mémoire, LAuReL et AltUp pour l'efficacité architecturale, ainsi que de nouveaux encodeurs audio et de vision basés sur MobileNet-v5 optimisés pour les cas d'utilisation sur appareil.
  • Qualité améliorée : Gemma 3n offre des améliorations de qualité dans les domaines du multilinguisme (prise en charge de 140 langues pour le texte et la compréhension multimodale de 35 langues), des mathématiques, du codage et du raisonnement. La version E4B atteint un score LMArena supérieur à 1300, ce qui en fait le premier modèle de moins de 10 milliards de paramètres à atteindre ce niveau de référence.



Pour rappel, un récent rapport a révélé que Google a détrôné IBM pour devenir l'acteur dominant des brevets liés à l'IA générative et est désormais en tête dans le domaine émergent de l'IA agentique. En effet, dans le classement américain des brevets liés aux agents d'IA, Google et Nvidia occupent les premières places, et pour les brevets d'IA générative au niveau mondial, Google conserve sa position de leader.

Si les dépôts de brevets ne mesurent pas directement la qualité de l'innovation, ils constituent des indicateurs précieux des priorités de recherche et des investissements stratégiques. L'ascension de Google dans ces classements s'aligne sur ses initiatives plus larges en matière d'IA, y compris des investissements substantiels dans les technologies d'IA générative et agentique. Les améliorations et nouveautés de Gemma 3n semblent être parmi les résultats de ces initiatives.

Présentation des nouveautés de Gemma 3n

MatFormer : un modèle, plusieurs tailles

Au cœur de Gemma 3n se trouve l'architecture MatFormer (Matryoshka Transformer), un nouveau transformateur imbriqué conçu pour l'inférence élastique. Considérez-le comme des poupées russes : un modèle plus grand contient des versions plus petites et entièrement fonctionnelles de lui-même. Cette approche étend le concept d'apprentissage de la représentation Matryoshka des simples intégrations à tous les composants du transformateur.


Pendant l'entraînement MatFormer du modèle à 4 milliards de paramètres effectifs (E4B), un sous-modèle à 2 milliards de paramètres effectifs (E2B) est simultanément optimisé en son sein, comme le montre la figure ci-dessus. Cela offre aujourd'hui aux développeurs deux fonctionnalités et cas d'utilisation puissants :

1 : Modèles pré-extraits : vous pouvez télécharger et utiliser directement soit le modèle E4B principal pour bénéficier des capacités les plus élevées, soit le sous...
La fin de cet article est réservée aux abonnés. Soutenez le Club Developpez.com en prenant un abonnement pour que nous puissions continuer à vous proposer des publications.

Une erreur dans cette actualité ? Signalez-nous-la !

Avatar de _toma_
Membre éclairé https://www.developpez.com
Le 29/06/2025 à 0:35
Google annonce des résultats AST particulièrement bons pour la traduction entre l'anglais et l'espagnol, le français, l'italien et le portugais, ce qui offre un grand potentiel pour les développeurs qui ciblent des applications dans ces langues.
Quand je vois le nombre de traductions ratées* sur lesquelles je tombe depuis l'apparition des LLM, j'ai quand même envie d'émettre de gros doutes.
Un exemple parmi tant d'autres.
JBL semble avoir fait refaire son site par des humains mais il y a quelques mois, sur leur site on pouvait acheter des JBL retournée. Je vous laisse deviner de quel produit il s'agissait ;-). C'est rigolo mais v'là comment c'est la honte pour une marque de cette envergure.

*: façon polie de dire "nulles à chier et carrément à l'ouest"
1  0