
Google a présenté Gemma 3 270M, une version compacte de son modèle d'intelligence artificielle (IA) ouvert Gemma, conçu pour fonctionner en local directement sur des appareils tels que les smartphones et les navigateurs web. Avec seulement 270 millions de paramètres, soit bien moins que ses prédécesseurs qui en comptaient un milliard, ce modèle offre un réglage plus rapide, de solides capacités de suivi des instructions et une confidentialité renforcée grâce au traitement local.
Gemma est une série de grands modèles de langage (LLM) open source développés par Google DeepMind. Elle repose sur des technologies similaires à celles de Gemini. La première version a été lancée en février 2024, suivie de Gemma 2 en juin de la même année, puis de Gemma 3. Des variantes de Gemma ont également été développées, comme le modèle Gemma 3 QAT, qui offre des performances de pointe pour les accélérateurs cloud et de bureau, Gemma 3n, une architecture axée sur les appareils mobiles qui apporte une IA multimodale puissante et en temps réel directement aux appareils périphériques, ou encore les modèles de vision-langage PaliGemma et DolphinGemma, qui permet de comprendre la communication des dauphins.
Google a lancé ses premiers modèles ouverts Gemma 3 au début de l'année 2025. Selon l'entreprise, il s'agit des modèles ouverts de Google les plus avancés, les plus portables et les plus développés de manière responsable. La famille Gemma 3 est disponible en plusieurs tailles, allant de 1 milliard à 27 milliards de paramètres, ce qui permet aux utilisateurs de choisir le modèle le mieux adapté à leurs besoins spécifiques en termes de matériel et de performances.
Au cours des dernières années, les géants de la technologie ont créé des modèles d'IA toujours plus volumineux, exploitant des racks entiers de GPU coûteux pour fournir une IA générative sous forme de service cloud. Mais les IA de petite taille ont également leur importance. Google a annoncé une version miniature de son modèle ouvert Gemma, conçue pour fonctionner sur des appareils locaux. Selon Google, le nouveau Gemma 3 à 270 millions de paramètres peut être réglé en un clin d'œil et offre des performances robustes malgré son faible encombrement.
Dans le domaine de l'IA générative, les paramètres sont les variables apprises qui contrôlent la manière dont le modèle traite les entrées pour estimer les tokens de sortie. En général, plus un modèle comporte de paramètres, plus il est performant. Avec seulement 270 millions de paramètres, le nouveau Gemma 3 peut fonctionner sur des appareils tels que les smartphones, voire entièrement dans un navigateur web.
L'exécution d'un modèle d'IA en local présente de nombreux avantages, notamment une confidentialité renforcée et une latence réduite. Gemma 3 270M a été conçu en tenant compte de ce type de cas d'utilisation.
Capacités principales de Gemma 3 270M
- Architecture compacte et performante : le nouveau modèle de Google compte au total 270 millions de paramètres : 170 millions de paramètres d'intégration en raison d'un vocabulaire étendu et 100 millions pour ses blocs de transformation. Grâce à son vocabulaire étendu de 256 000 tokens, le modèle peut traiter des tokens spécifiques et rares, ce qui en fait un modèle de base solide pouvant être affiné dans des domaines et des langues spécifiques.
- Efficacité énergétique extrême : l'un des principaux avantages de Gemma 3 270M est sa faible consommation d'énergie. Des tests internes réalisés par Google sur un SoC Pixel 9 Pro montrent que le modèle quantifié INT4 n'a utilisé que 0,75 % de la batterie pour 25 conversations, ce qui en fait le modèle Gemma le plus économe en énergie de Google.
- Suivi des instructions : un modèle adapté aux instructions est publié avec un point de contrôle pré-entraîné. Bien que ce modèle ne soit pas conçu pour des cas d'utilisation conversationnels complexes, il s'agit d'un modèle puissant qui suit les instructions générales dès sa mise en service.
- Quantification prête pour la production : des points de contrôle Quantization-Aware Trained (QAT) sont disponibles, permettant aux utilisateurs d'exécuter les modèles avec une précision INT4 et une dégradation minimale des performances, ce qui est essentiel pour le déploiement sur des appareils aux ressources limitées.
L'outil adapté à la tâche
Selon Google, en ingénierie, le succès se définit par l'efficacité, et non par la puissance brute. « Vous n'utiliseriez pas un marteau pour accrocher un cadre. Le même principe s'applique à la construction avec l'IA. »
Gemma 3 270M incarne cette philosophie de « l'outil adapté à la tâche », selon l'entreprise. Gemma 3 270M est un modèle de fondation de haute qualité qui se conforme parfaitement aux instructions dès sa sortie de l'emballage, et dont la véritable puissance se révèle grâce à un réglage fin. Une fois spécialisé, le modèle peut exécuter des tâches telles que la classification de texte et l'extraction de données avec une précision, une rapidité et une rentabilité remarquables. En commençant par un modèle compact et performant, les utilisateurs peuvent ainsi construire des systèmes de production légers, rapides et nettement moins coûteux à exploiter.
Gemma 3 270M offre de solides capacités d'exécution d'instructions dans un modèle compact. Comme le montre le benchmark IFEval (qui teste la capacité d'un modèle à suivre des instructions vérifiables), il établit un nouveau niveau de performance pour sa taille, rendant les capacités sophistiquées de l'IA plus accessibles pour les applications sur appareil et de recherche.
Un plan concret pour réussir
La puissance de l'approche de spécialisation a déjà donné des résultats incroyables dans le monde réel. Un exemple concret est le travail réalisé par Adaptive ML avec SK Telecom. Face au défi que représente la modération de contenus multilingues nuancés, ils ont choisi de se spécialiser. Au lieu d'utiliser un modèle généraliste massif, Adaptive ML a affiné un modèle Gemma 3 4B. Les résultats ont été stupéfiants : le modèle Gemma spécialisé a non seulement égalé, mais dépassé les performances de modèles propriétaires beaucoup plus volumineux pour cette tâche spécifique.
Gemma 3 270M est conçu pour permettre aux développeurs d'aller encore plus loin dans cette approche, en offrant une efficacité encore plus grande pour des tâches bien définies. « C'est le point de départ idéal pour créer une flotte de petits modèles spécialisés, chacun expert dans sa propre tâche », selon Google.
Mais cette puissance de spécialisation n'est pas réservée aux tâches d'entreprise ; elle permet également de créer des applications créatives puissantes. C'est notamment le cas de cette application web Bedtime Story Generator :
Gemma 3 270M est utilisé pour alimenter une application web Bedtime Story Generator à l'aide de Transformers.js. La taille et les performances du modèle le rendent adapté aux tâches créatives hors ligne et basées sur le web.
Quand choisir Gemma 3 270M
Gemma 3 270M hérite de l'architecture avancée et du pré-entraînement robuste de la collection Gemma 3, offrant une base solide pour les applications personnalisées des utilisateurs.
Voici quand il s'agit du choix idéal :
- Réaliser une tâche bien définie et à volume élevé. Idéal pour des fonctions telles que l'analyse des sentiments, l'extraction d'entités, le routage des requêtes, le traitement de texte non structuré vers structuré, l'écriture créative et les contrôles de conformité.
- Tirer parti de chaque milliseconde et de chaque microcentime. Réduisez considérablement, voire éliminez, vos coûts d'inférence en production et offrez des réponses plus rapides à vos utilisateurs. Un modèle 270M finement réglé peut fonctionner sur une infrastructure légère et peu coûteuse ou directement sur l'appareil.
- Itérer et déployer rapidement. La petite taille de Gemma 3 270M permet de réaliser rapidement des expériences de réglage fin, vous aidant à trouver la configuration parfaite pour votre cas d'utilisation en quelques heures, et non en plusieurs jours.
- Garantir la confidentialité des utilisateurs. Le modèle pouvant fonctionner entièrement sur l'appareil, vous pouvez créer des applications qui traitent des informations sensibles sans jamais envoyer de données vers le cloud.
- Disposer d'une flotte de modèles spécialisés. Créez et déployez plusieurs modèles personnalisés, chacun spécialement formé pour une tâche différente, sans dépasser votre budget.
Débuter avec le réglage fin
Google affirme que la personnalisation de Gemma 3 270M a été facilitée au maximum. Le modèle est construit sur la même architecture que les autres modèles Gemma 3, avec des recettes et des outils pour aider les utilisateurs à démarrer rapidement.
- Télécharger le modèle : les modèles Gemma 3 270M sont disponibles sur Hugging Face, Ollama, Kaggle, LM Studio ou Docker. Google publie à la fois des modèles pré-entraînés et des modèles optimisés pour l'enseignement.
- Essayer le modèle : les modèles peuvent être testées sur Vertex AI ou avec des outils d'inférence populaires tels que llama.cpp Gemma.cpp, LiteRT, Keras et MLX.
- Commencer le réglage fin : les utilisateurs peuvent utiliser leurs outils préférés, notamment Hugging Face, UnSloth et JAX.
- Déployer la solution : une fois le réglage fin effectué, il est possible de déployer le modèle spécialisé n'importe où, du propre environnement local de l'utilisateur à Google Cloud Run.
« Le Gemmaverse repose sur l'idée que l'innovation peut prendre toutes les formes. Avec Gemma 3 270M, nous donnons aux développeurs les moyens de créer des solutions d'IA plus intelligentes, plus rapides et plus efficaces. Nous sommes impatients de découvrir les modèles spécialisés que vous allez créer », déclare Google.
Si le lancement de Gemma 3 270M souligne l'importance accordée par Google à l'efficacité énergétique, les résultats globaux de l'entreprise révèlent une autre réalité. Malgré son engagement à atteindre la neutralité carbone d'ici 2030, Google a annoncé une augmentation de 13 % de ses émissions de carbone en 2023, soit une hausse de 48 % par rapport aux niveaux de 2019. La société accuse l'IA d'être à l'origine de l'augmentation massive de ses émissions de carbone, soulignant le coût environnemental du progrès technologique.
Cette tension entre innovation et conséquences s'étend également à l'impact sociétal de l'IA. Mo Gawdat, ancien directeur commercial de Google X, a averti que l'IA va prendre des emplois, qu'il s'agisse de développeurs ou de PDG, et qu'elle va créer 15 années « d'enfer » qui débuteront plus tôt que nous le pensons. Ses remarques suggèrent que si les modèles d'IA peuvent aujourd'hui réduire les obstacles, ils laissent également présager des défis plus importants pour la main-d'œuvre.
Source : Google
Et vous ?


Voir aussi :



Vous avez lu gratuitement 3 463 articles depuis plus d'un an.
Soutenez le club developpez.com en souscrivant un abonnement pour que nous puissions continuer à vous proposer des publications.
Soutenez le club developpez.com en souscrivant un abonnement pour que nous puissions continuer à vous proposer des publications.