Lancé pour la première fois en février de cette année, Gemma est une famille de modèles ouverts légers, texte à texte, conçus pour les développeurs et les chercheurs - et construits sur la technologie qui alimente Google Gemini.
DeepMind a lancé Gemma 2 en juin, en deux tailles différentes : 9 milliards (9B) et 27 milliards (27) de paramètres.
Le nouveau modèle 2B apprend à partir de modèles plus grands par distillation et produit des résultats surdimensionnés, selon DeepMind. L'entreprise affirme également qu'il surpasse tous les modèles GPT-3.5 sur le tableau de classement LMSYS Chatbot Arena.
Gemma 2 2B peut fonctionner sur une large gamme de matériel, des ordinateurs portables aux appareils périphériques et aux déploiements dans le cloud avec Vertex AI et Google Kubernetes Engine (GKE). En outre, il est suffisamment petit pour fonctionner sur le niveau gratuit de l'accélérateur d'apprentissage profond NVIDIA T4.
DeepMind présente également un ensemble de deux autres ajouts à la famille de modèles : ShieldGemma et Gemma Scope.
ShieldGemma est une série de classificateurs de sécurité conçus pour détecter et modérer les contenus nuisibles dans les entrées et sorties des modèles d'IA. Il existe en différentes tailles et cible les discours haineux, le harcèlement, les contenus sexuellement explicites et les contenus dangereux.
GemmaScope met l'accent sur la transparence. L'outil comprend une collection d'auto-encodeurs épars (SAE). Il s'agit de réseaux neuronaux spécialisés qui décomposent le fonctionnement interne complexe des modèles Gemma 2 et fournissent un format plus facile à comprendre sur la manière dont ils traitent les informations et prennent des décisions.
Il existe plus de 400 SAE disponibles gratuitement, couvrant toutes les couches de Gemma 2 2B et 9B. L'objectif est de permettre aux chercheurs de créer des systèmes d'IA plus transparents et plus fiables.
Les développeurs et les chercheurs peuvent télécharger Gemma 2 2B sur Kaggle, Hugging Face et Vertex AI Model Garden, ou l'essayer dans Google AI Studio.
Dans un billet de blog, Google a donné plus de détails sur son modèle Gemma 2.
L'IA a le potentiel de résoudre certains des problèmes les plus urgents de l'humanité, mais seulement si tout le monde dispose des outils nécessaires pour construire avec elle. C'est pourquoi, au début de l'année, Google a présenté Gemma, une famille de modèles ouverts, légers et à la pointe de la technologie, issus des mêmes recherches et technologies que celles utilisées pour créer les modèles Gemini. Google a continué à développer la famille Gemma avec CodeGemma, RecurrentGemma et PaliGemma - chacun offrant des capacités uniques pour différentes tâches d'IA et facilement accessibles grâce à des intégrations avec des partenaires tels que Hugging Face, NVIDIA et Ollama.
Aujourd'hui, Google met officiellement Gemma 2 à la disposition des chercheurs et des développeurs du monde entier. Disponible en 9 milliards (9B) et 27 milliards (27B) de paramètres, Gemma 2 est plus performant et plus efficace en matière d'inférence que la première génération, avec des avancées notables en matière de sécurité. En fait, à 27B, Gemma 2 offre des alternatives compétitives à des modèles plus de deux fois plus grands, offrant le type de performance qui n'était possible qu'avec des modèles propriétaires jusqu'en décembre dernier. Et cela est désormais réalisable sur un seul GPU NVIDIA H100 Tensor Core ou un hôte TPU, ce qui réduit considérablement les coûts de déploiement.
Une nouvelle norme de modèle ouvert pour l'efficacité et la performance
Google a construit Gemma 2 sur une architecture repensée, conçue pour offrir des performances et une efficacité d'inférence optimales. Voici ce qui le distingue :
- Des performances surdimensionnées : Avec une capacité de 27 Go, Gemma 2 offre les meilleures performances dans sa catégorie de taille, et propose même des alternatives compétitives à des modèles plus de deux fois plus grands. Le modèle 9B Gemma 2 offre également des performances inégalées dans sa catégorie, surpassant le Llama 3 8B et d'autres modèles ouverts dans sa catégorie de taille.
- Une efficacité et des économies inégalées : Le modèle 27B Gemma 2 est conçu pour exécuter efficacement l'inférence à pleine précision sur un seul hôte Google Cloud TPU, un GPU NVIDIA A100 80GB Tensor Core ou un GPU NVIDIA H100 Tensor Core, ce qui réduit considérablement les coûts tout en maintenant des performances élevées. Cela permet des déploiements d'IA plus accessibles et plus économiques.
- Inférence ultrarapide sur tout le matériel : Gemma 2 est optimisé pour fonctionner à une vitesse inégalée sur toute une gamme de matériels, des puissants ordinateurs portables de jeu aux ordinateurs de bureau haut de gamme, en passant par les configurations basées sur le cloud. Essayez Gemma 2 avec une précision maximale dans Google AI Studio, débloquez les performances locales avec la version quantifiée avec Gemma.cpp sur votre CPU, ou essayez-le sur votre ordinateur personnel avec une NVIDIA RTX ou GeForce RTX via Hugging Face Transformers.
Conçu pour les développeurs et les chercheurs
Gemma 2 n'est pas seulement puissant, il est conçu pour s'intégrer plus facilement dans vos flux de travail :
- Ouvert et accessible : Tout comme les modèles Gemma originaux, Gemma 2 est disponible sous la licence Gemma de Google, qui permet aux développeurs et aux chercheurs de partager et de commercialiser leurs innovations.
- Large compatibilité avec les cadres de travail : Utilisez facilement Gemma 2 avec vos outils et flux de travail préférés grâce à sa compatibilité avec les principaux frameworks d'IA tels que Hugging Face Transformers, JAX, PyTorch et TensorFlow via Keras 3.0, vLLM, Gemma.cpp, Llama.cpp et Ollama. De plus, Gemma est optimisé avec NVIDIA TensorRT-LLM pour fonctionner sur une infrastructure accélérée par NVIDIA ou en tant que microservice d'inférence NVIDIA NIM, avec une optimisation pour NVIDIA NeMo à venir. Vous pouvez effectuer des réglages fins avec Keras et Hugging Face. Google travaille activement à la mise en place d'autres options de réglage fin efficaces en termes de paramètres.
- Un déploiement sans effort : À partir du mois prochain, les clients de Google Cloud pourront facilement déployer et gérer Gemma 2 sur Vertex AI.
Explorez le nouveau Gemma Cookbook, une collection d'exemples pratiques et de recettes pour vous guider dans la création de vos propres applications et le réglage fin des modèles Gemma 2 pour des tâches spécifiques. Découvrez comment utiliser facilement Gemma avec l'outil de votre choix, y compris pour des tâches courantes telles que la génération augmentée de récupération.
Développement responsable de l'IA
Google s'est engagé à fournir aux développeurs et aux chercheurs les ressources dont ils ont besoin pour développer et déployer l'IA de manière responsable, notamment grâce à sa boîte à outils pour une IA générative responsable. Le comparateur LLM, récemment mis en libre accès, aide les développeurs et les chercheurs à évaluer en profondeur les modèles de langage. Vous pouvez utiliser la bibliothèque Python qui l'accompagne pour effectuer des évaluations comparatives avec votre modèle et vos données, et visualiser les résultats dans l'application. En outre, Google travaille activement à l'ouverture de sa technologie de tatouage de texte, SynthID, pour les modèles Gemma.
Lors de la formation de Gemma 2, Google a suivi ses processus robustes de sécurité interne, en filtrant les données de préformation et en effectuant des tests et des évaluations rigoureux par rapport à un ensemble complet de mesures afin d'identifier et d'atténuer les biais et les risques potentiels. Google publie ses résultats sur un large éventail de critères publics relatifs à la sécurité et aux préjudices liés à la représentation.
Projets réalisés avec Gemma
Le premier lancement de Gemma par Google a donné lieu à plus de 10 millions de téléchargements et à d'innombrables projets inspirants. Navarasa, par exemple, a utilisé Gemma pour créer un modèle ancré dans la diversité linguistique de l'Inde.
Désormais, Gemma 2 aidera les développeurs à mettre en œuvre des projets encore plus ambitieux, en permettant à leurs créations d'IA d'atteindre des niveaux de performance et de potentiel encore plus élevés. Google continuera à explorer de nouvelles architectures et à développer des variantes spécialisées de Gemma pour s'attaquer à un plus large éventail de tâches et de défis en matière d'IA. Cela inclut un prochain modèle Gemma 2 de 2,6 milliards de paramètres, conçu pour combler le fossé entre l'accessibilité légère et les performances puissantes.
Pour commencer
Gemma 2 est disponible dans Google AI Studio, ce qui vous permet de tester toutes ses capacités de performance à 27B sans exigences matérielles. Vous pouvez également télécharger les poids des modèles de Gemma 2 à partir de Kaggle et Hugging Face Models, et Vertex AI Model Garden sera bientôt disponible.
Pour faciliter l'accès à la recherche et au développement, Gemma 2 est également disponible gratuitement sur Kaggle ou via un niveau de gratuité pour les ordinateurs portables Colab. Les nouveaux clients de Google Cloud peuvent bénéficier d'un crédit de 300 dollars. Les chercheurs universitaires peuvent s'inscrire au programme de recherche universitaire Gemma 2 pour recevoir des crédits Google Cloud afin d'accélérer leurs recherches avec Gemma 2. Les candidatures sont ouvertes jusqu'au 9 août.
Sources : Google, "Gemma-2 (2B) : Google's New SMALL Model is GOOD OR REALLY BAD?" (https://youtu.be/DTx3ioAWkbM)
Et vous ?
Quel est votre avis sur le sujet ?
Trouvez-vous les résultats des tests de Gemma 2 crédibles ou pertinents ?
Avez-vous eu l'occasion de tester les modèles Gemma 2, qu'en pensez-vous ? Trouvez-vous que leurs performances sont à la hauteur des autres modèles de taille similaire ?
Voir aussi :
Google permet désormais aux développeurs d'accéder à une fenêtre contextuelle de 2 millions de jetons dans Gemini 1.5 Pro, au modèle d'IA Gemma 2 dans Google AI Studio et à des capacités d'exécution de code
Google donne plus de détails sur Gemma, une famille de modèles d'IA ouverts qui a servi à créer Gemini, avec une nouvelle boîte à outils d'IA générative pour l'adapter à vos besoins
Google publie Gemma, une famille de modèles d'IA ouverts et optimisés pour Google Cloud, que les développeurs extérieurs peuvent façonner comme les leurs, emboitant ainsi le pas à Meta Platforms