
Lancé pour la première fois en février de cette année, Gemma est une famille de modèles ouverts légers, texte à texte, conçus pour les développeurs et les chercheurs - et construits sur la technologie qui alimente Google Gemini.
DeepMind a lancé Gemma 2 en juin, en deux tailles différentes : 9 milliards (9B) et 27 milliards (27) de paramètres.
Le nouveau modèle 2B apprend à partir de modèles plus grands par distillation et produit des résultats surdimensionnés, selon DeepMind. L'entreprise affirme également qu'il surpasse tous les modèles GPT-3.5 sur le tableau de classement LMSYS Chatbot Arena.
Gemma 2 2B peut fonctionner sur une large gamme de matériel, des ordinateurs portables aux appareils périphériques et aux déploiements dans le cloud avec Vertex AI et Google Kubernetes Engine (GKE). En outre, il est suffisamment petit pour fonctionner sur le niveau gratuit de l'accélérateur d'apprentissage profond NVIDIA T4.
DeepMind présente également un ensemble de deux autres ajouts à la famille de modèles : ShieldGemma et Gemma Scope.
ShieldGemma est une série de classificateurs de sécurité conçus pour détecter et modérer les contenus nuisibles dans les entrées et sorties des modèles d'IA. Il existe en différentes tailles et cible les discours haineux, le harcèlement, les contenus sexuellement explicites et les contenus dangereux.
GemmaScope met l'accent sur la transparence. L'outil comprend une collection d'auto-encodeurs épars (SAE). Il s'agit de réseaux neuronaux spécialisés qui décomposent le fonctionnement interne complexe des modèles Gemma 2 et fournissent un format plus facile à comprendre sur la manière dont ils traitent les informations et prennent des décisions.
Il existe plus de 400 SAE disponibles gratuitement, couvrant toutes les couches de Gemma 2 2B et 9B. L'objectif est de permettre aux chercheurs de créer des systèmes d'IA plus transparents et plus fiables.
Les développeurs et les chercheurs peuvent télécharger Gemma 2 2B sur Kaggle, Hugging Face et Vertex AI Model Garden, ou l'essayer dans Google AI Studio.
Dans un billet de blog, Google a donné plus de détails sur son modèle Gemma 2.
L'IA a le potentiel de résoudre certains des problèmes les plus urgents de l'humanité, mais seulement si tout le monde dispose des outils nécessaires pour construire avec elle. C'est pourquoi, au début de l'année, Google a présenté Gemma, une famille de modèles ouverts, légers et à la pointe de la technologie, issus des mêmes recherches et technologies que celles utilisées pour créer les modèles Gemini. Google a continué à développer la famille Gemma avec CodeGemma, RecurrentGemma et PaliGemma - chacun offrant des capacités uniques pour différentes tâches d'IA et facilement accessibles grâce à des intégrations avec des partenaires tels que Hugging Face, NVIDIA et Ollama.
Aujourd'hui, Google met officiellement Gemma 2 à la disposition des chercheurs et des développeurs du monde entier. Disponible en 9 milliards (9B) et 27 milliards (27B) de paramètres, Gemma 2 est plus performant et plus efficace en matière d'inférence que la première génération, avec des avancées notables en matière de sécurité. En fait, à 27B, Gemma 2 offre des alternatives compétitives à des modèles plus de deux fois plus grands, offrant le type de performance qui n'était possible qu'avec des modèles propriétaires jusqu'en décembre dernier. Et cela est désormais réalisable sur un seul GPU NVIDIA H100 Tensor Core ou un hôte TPU, ce qui réduit considérablement les coûts de déploiement.
Une nouvelle norme de modèle ouvert pour l'efficacité et la performance
Google a construit Gemma 2 sur une architecture repensée, conçue pour offrir des performances et une efficacité d'inférence optimales. Voici ce qui le distingue :
- Des performances surdimensionnées : Avec une capacité de 27 Go, Gemma 2 offre les meilleures performances dans sa catégorie de taille, et propose même des alternatives compétitives à des modèles plus de deux fois plus grands. Le modèle 9B Gemma 2 offre également des performances inégalées dans sa catégorie, surpassant le Llama 3 8B et d'autres modèles ouverts dans sa catégorie de taille.
- Une efficacité et des économies inégalées : Le modèle 27B Gemma 2 est conçu pour exécuter efficacement l'inférence à pleine précision sur un seul hôte Google Cloud TPU, un GPU NVIDIA A100 80GB Tensor Core ou un GPU NVIDIA H100 Tensor Core, ce qui réduit considérablement les coûts tout en maintenant des performances élevées. Cela permet des déploiements d'IA plus accessibles et plus économiques.
- Inférence ultrarapide sur tout le matériel : Gemma 2 est optimisé pour fonctionner à une vitesse inégalée sur toute une gamme de matériels, des puissants ordinateurs portables de jeu aux ordinateurs de bureau haut de gamme, en passant par les configurations basées sur le cloud. Essayez Gemma 2 avec une précision maximale dans Google AI Studio, débloquez les performances locales avec la version quantifiée avec Gemma.cpp sur votre CPU, ou essayez-le sur votre ordinateur personnel avec une NVIDIA RTX ou GeForce RTX via Hugging Face Transformers.
Conçu pour les développeurs et les chercheurs
Gemma 2 n'est pas seulement puissant, il est conçu pour s'intégrer plus facilement dans vos flux de travail :
- Ouvert et accessible : Tout comme les modèles Gemma originaux, Gemma 2 est disponible sous la licence Gemma de Google, qui permet aux développeurs et aux chercheurs de partager et de commercialiser leurs innovations.
- Large compatibilité avec les cadres de travail : Utilisez facilement Gemma 2 avec vos outils et flux de travail préférés grâce à sa compatibilité avec les principaux frameworks d'IA tels que Hugging Face Transformers, JAX, PyTorch et TensorFlow via Keras 3.0, vLLM, Gemma.cpp, Llama.cpp et Ollama. De plus, Gemma est optimisé avec NVIDIA TensorRT-LLM pour fonctionner sur une infrastructure accélérée par NVIDIA ou en tant que microservice d'inférence NVIDIA NIM, avec une optimisation pour NVIDIA NeMo à venir. Vous pouvez effectuer des réglages fins avec Keras et Hugging Face. Google travaille activement à la mise en place d'autres options de réglage fin efficaces en termes de paramètres.
- Un déploiement sans effort : À partir du mois prochain, les clients de Google Cloud pourront facilement déployer et gérer Gemma 2 sur Vertex AI.
Explorez le nouveau Gemma Cookbook, une collection d'exemples pratiques et de recettes pour vous guider dans la création de vos propres applications et le réglage fin des modèles Gemma 2 pour des tâches spécifiques. Découvrez comment utiliser facilement Gemma avec l'outil de votre choix, y compris pour des tâches courantes telles que la génération augmentée de récupération.
Développement responsable de l'IA
Google s'est engagé à fournir aux développeurs et aux chercheurs les ressources dont ils ont besoin pour développer et déployer l'IA de manière responsable, notamment grâce à sa boîte à outils pour une IA générative responsable. Le comparateur LLM, récemment mis en libre accès, aide les développeurs et les chercheurs à évaluer en profondeur les modèles de langage. Vous pouvez utiliser la bibliothèque Python qui l'accompagne pour effectuer des évaluations comparatives avec votre modèle et vos données, et visualiser les résultats dans l'application. En outre, Google travaille activement à l'ouverture de sa technologie de tatouage de texte, SynthID, pour les modèles Gemma.
Lors de la formation de Gemma 2, Google a suivi ses processus robustes de sécurité interne, en filtrant les données de préformation et en effectuant des tests et des évaluations rigoureux par rapport à un ensemble complet de mesures afin d'identifier et d'atténuer les biais et les risques potentiels. Google publie ses résultats sur un large éventail de critères publics relatifs à la sécurité et aux préjudices liés à la représentation.
Projets réalisés avec Gemma
Le premier lancement de Gemma par...
La fin de cet article est réservée aux abonnés. Soutenez le Club Developpez.com en prenant un abonnement pour que nous puissions continuer à vous proposer des publications.