Google présente PaliGemma, un modèle ouvert vision-langage, et annonce Gemma 2, la nouvelle génération de son modèle d'IA Gemma

Ainsi qu'une boîte à outils améliorée pour l'IA responsable

Le 16 mai 2024 à 14:21, par Jade Emy

6PARTAGES

Google présente PaliGemma, Gemma 2 et de sa boîte à outils améliorée pour l'IA responsable. Avec ces nouveaux modèles d'IA, Google souhaite favoriser un environnement collaboratif où les technologies d'IA de pointe et le développement responsable vont de pair.

Voici ce que Google déclare pour l'annonce de PaliGemma, Gemma 2 et de sa boîte à outils améliorée pour l'IA responsable :

Chez Google, nous croyons au pouvoir de la collaboration et de la recherche ouverte pour stimuler l'innovation, et nous sommes heureux de voir que Gemma a été adopté par la communauté avec des millions de téléchargements quelques mois à peine après son lancement.

Cette réponse enthousiaste a été incroyablement inspirante, car les développeurs ont créé une gamme variée de projets tels que Navarasa, une variante multilingue pour les langues indicatives, ou Octopus v2, un modèle d'action sur l'appareil, les développeurs montrent le potentiel de Gemma pour créer des solutions d'IA impactantes et accessibles.

Cet esprit d'exploration et de créativité a également alimenté notre développement de CodeGemma, avec ses puissantes capacités de complétion et de génération de code, et de RecurrentGemma, qui offre des possibilités d'inférence et de recherche efficaces.

Gemma est une famille de modèles ouverts légers, à la pointe de la technologie, construits à partir des mêmes recherches et technologies que celles utilisées pour créer les modèles Gemini. Aujourd'hui, nous sommes heureux d'élargir la famille Gemma avec l'introduction de PaliGemma, un puissant modèle ouvert de vision-langage (VLM), et un aperçu de l'avenir proche avec l'annonce de Gemma 2. En outre, nous renforçons notre engagement en faveur d'une IA responsable en mettant à jour notre kit d'outils d'IA générative responsable, qui fournit aux développeurs des outils nouveaux et améliorés pour évaluer la sécurité des modèles et filtrer les contenus préjudiciables.

Présentation de PaliGemma : modèle ouvert vision-langage

PaliGemma est un puissant VLM ouvert inspiré de PaLI-3. Construit sur des composants ouverts, notamment le modèle de vision SigLIP et le modèle de langage Gemma, PaliGemma est conçu pour offrir des performances de pointe en matière de réglage fin sur un large éventail de tâches de vision et de langage. Cela inclut le sous-titrage d'images et de courtes vidéos, la réponse à des questions visuelles, la compréhension de textes dans des images, la détection d'objets et la segmentation d'objets.

Google fournit des points de contrôle pré-entraînés et affinés à plusieurs résolutions, ainsi que des points de contrôle spécifiquement adaptés à une combinaison de tâches pour une exploration immédiate.

Pour faciliter l'exploration et la recherche, PaliGemma est disponible sur différentes plateformes et ressources. Google ajoute que vous pouvez commencer à explorer dès aujourd'hui avec des options gratuites comme Kaggle et les carnets Colab. Les chercheurs universitaires qui cherchent à repousser les limites de la recherche sur le langage de vision peuvent également demander des crédits Google Cloud pour soutenir leur travail.

Annonce de Gemma 2 : Performance et efficacité de nouvelle génération

Google annonce l'arrivée prochaine de Gemma 2, la nouvelle génération de modèles Gemma. Gemma 2 sera disponible dans de nouvelles tailles pour une large gamme de cas d'utilisation des développeurs d'IA et présente une toute nouvelle architecture conçue pour des performances et une efficacité, offrant des avantages tels que :

Des performances de premier ordre : Selon Google, avec 27 milliards de paramètres, Gemma 2 offre des performances comparables à celles de Llama 3 70B pour une taille inférieure à la moitié. Cette efficacité révolutionnaire établit une nouvelle norme dans le paysage des modèles ouverts.
Coûts de déploiement réduits : La conception de Gemma 2 lui permet de s'adapter à moins de la moitié du calcul des modèles comparables. Le modèle 27B est optimisé pour fonctionner sur les GPU de NVIDIA ou peut fonctionner efficacement sur un seul hôte TPU dans Vertex AI, ce qui rend le déploiement plus accessible et plus rentable pour un plus grand nombre d'utilisateurs.
Chaînes d'outils de réglage polyvalentes : Gemma 2 offrira aux développeurs des capacités de réglage dans un écosystème diversifié de plateformes et d'outils. Des solutions basées sur le cloud comme Google Cloud aux outils communautaires populaires comme Axolotl, le réglage fin de Gemma 2 sera plus facile que jamais. De plus, l'intégration transparente des partenaires avec Hugging Face et NVIDIA TensorRT-LLM, ainsi que JAX et Keras, vous permet d'optimiser les performances et de déployer efficacement sur différentes configurations matérielles.

Le lancement officiel de Gemma 2 se fera dans les semaines à venir !

Extension de la boîte à outils d'IA générative responsable

Google étend sa boîte à outils d'IA générative responsable pour aider les développeurs à conduire des évaluations de modèles plus robustes en publiant le LLM Comparator en open source. Le LLM Comparator est un nouvel outil interactif et visuel qui permet d'effectuer des évaluations côte à côte efficaces afin d'évaluer la qualité et la sécurité des réponses des modèles. Google espère que cet outil fera progresser la mission de la boîte à outils, qui est d'aider les développeurs à créer des applications d'IA non seulement innovantes, mais aussi sûres et responsables.

Google conclue l'annonce :

Alors que nous continuons à développer la famille de modèles ouverts Gemma, nous restons déterminés à favoriser un environnement collaboratif où les technologies d'IA de pointe et le développement responsable vont de pair. Nous sommes impatients de voir ce que vous allez construire avec ces nouveaux outils et comment, ensemble, nous pouvons façonner l'avenir de l'IA.

Source : Google

Et vous ?

Quel est votre avis sur cette annonce ?

Voir aussi :

Google donne plus de détails sur Gemma, une famille de modèles d'IA ouverts qui a servi à créer Gemini, avec une nouvelle boîte à outils d'IA générative pour l'adapter à vos besoins

Google veut déployer "l'IA la plus avancée, la plus sûre et la plus responsable au monde" en 2024, mais le chemin à parcourir est encore long et pourrait comporter des défis majeurs

Google annonce des améliorations de Gemini 1.5 Pro et un nouveau modèle 1.5 Flash, similaire au GPT-4o récemment dévoilé par OpenAI, conçu pour la vitesse et utile pour les conversations en temps réel

Une erreur dans cette actualité ? Signalez-nous-la !

Votre nom : Votre e-mail :

Décrivez l'erreur que vous souhaitez porter à notre connaissance :

Identifiez-vous

Créer un compte

Google présente PaliGemma, un modèle ouvert vision-langage, et annonce Gemma 2, la nouvelle génération de son modèle d'IA Gemma

Ainsi qu'une boîte à outils améliorée pour l'IA responsable

Identifiant
Mot de passe

Mot de passe oublié ?

Identifiez-vous

Créer un compte

Google présente PaliGemma, un modèle ouvert vision-langage, et annonce Gemma 2, la nouvelle génération de son modèle d'IA Gemma Ainsi qu'une boîte à outils améliorée pour l'IA responsable

Google présente PaliGemma, un modèle ouvert vision-langage, et annonce Gemma 2, la nouvelle génération de son modèle d'IA Gemma

Ainsi qu'une boîte à outils améliorée pour l'IA responsable