Google a lancé un nouveau membre de la famille des modèles d'intelligence artificielle Gemini. Se situant entre le Nano sur appareil et le Pro basé sur le cloud, Gemini Flash est conçu pour le chat, les tâches complexes qui nécessitent une réponse rapide et le traitement des images, des vidéos et de la parole.
Dévoilé lors de l'événement annuel Google I/O pour les développeurs, Gemini Flash 1.5 est un modèle multimodal natif similaire à GPT-4o, récemment dévoilé par OpenAI, et a été conçu pour la vitesse, ce qui le rend utile pour les conversations en temps réel.
Le nouveau modèle est actuellement disponible dans le monde entier pour que les développeurs puissent l'utiliser dans leurs propres applications, de sorte que bientôt, on pourra voir un certain nombre d'applications tierces de chat en direct construites à l'aide de Gemini Flash 1.5.
Google écrit pour l'annonce :
En décembre dernier, nous avons publié Gemini 1.0 et rendu l'API Gemini disponible dans Google AI Studio et Vertex AI pour les entreprises. En février, nous avons publié Gemini 1.5 Pro, le premier modèle avec une fenêtre contextuelle de 1 million de jetons. Le mois dernier, nous avons ajouté des capacités de compréhension audio native, des instructions système, le mode JSON et bien plus encore.
En parallèle, nous avons lancé Gemma, notre famille de modèles ouverts légers construits à partir de la même recherche et de la même technologie que celles utilisées pour créer les modèles Gemini. Depuis février, les modèles 2B et 7B ont été téléchargés des millions de fois, et nous avons ajouté le mois dernier des variantes pour les développeurs et les chercheurs, comme CodeGemma et RecurrentGemma.
Aujourd'hui, Gemini et Gemma s'améliorent encore. Aujourd'hui, nous mettons à jour Gemini 1.5 Pro, introduisons 1.5 Flash, déployons de nouvelles fonctionnalités pour les développeurs et ajoutons deux nouveaux modèles Gemma.
En parallèle, nous avons lancé Gemma, notre famille de modèles ouverts légers construits à partir de la même recherche et de la même technologie que celles utilisées pour créer les modèles Gemini. Depuis février, les modèles 2B et 7B ont été téléchargés des millions de fois, et nous avons ajouté le mois dernier des variantes pour les développeurs et les chercheurs, comme CodeGemma et RecurrentGemma.
Aujourd'hui, Gemini et Gemma s'améliorent encore. Aujourd'hui, nous mettons à jour Gemini 1.5 Pro, introduisons 1.5 Flash, déployons de nouvelles fonctionnalités pour les développeurs et ajoutons deux nouveaux modèles Gemma.
Améliorations de Gemini 1.5 Pro et nouveau modèle 1.5 Flash
- Gemini 1.5 Pro: Google a apporté une série d'améliorations de la qualité dans des cas d'utilisation clés, tels que la traduction, le codage, le raisonnement, etc. Ces mises à jour devraient aider pour des tâches encore plus vastes et plus complexes.
- Gemini 1.5 Flash : Ce modèle Gemini plus petit est optimisé pour les tâches plus restreintes ou à haute fréquence pour lesquelles la rapidité du temps de réponse du modèle est la plus importante.
- Disponibilité : Les deux modèles sont disponibles dès aujourd'hui dans plus de 200 pays et territoires en avant-première et seront disponibles en juin.
- Nativement multimodal avec un long contexte : Les versions 1.5 Pro et 1.5 Flash sont toutes deux dotées d'une fenêtre contextuelle d'un million de jetons et vous permettent d'intercaler du texte, des images, de l'audio et de la vidéo en tant qu'entrées. Pour accéder à la version 1.5 Pro avec une fenêtre contextuelle de 2 millions de jetons, il faut s'inscrire sur la liste d'attente dans Google AI Studio ou dans Vertex AI pour les clients de Google Cloud.
Nouvelles fonctionnalités pour les développeurs et options de tarification pour l'API Gemini
- Nouvelles fonctionnalités pour les développeurs : Google introduit deux nouvelles fonctionnalités de l'API : l'extraction d'images vidéo et l'appel de fonction parallèle, qui permet de renvoyer plus d'un appel de fonction à la fois. En juin, Google ajoutera la mise en cache du contexte à Gemini 1.5 Pro, afin que vous n'ayez à envoyer qu'une seule fois au modèle les parties de votre message, y compris les fichiers volumineux. Cela devrait rendre le contexte long encore plus utile et plus abordable.
- Prix : Outre l'accès gratuit à l'API Gemini dans les régions éligibles via Google AI Studio, Google augmente les limites tarifaires prises en charge par son nouveau service de paiement à l'utilisation. Consultez les derniers tarifs de Google AI Studio et de Vertex AI.
Ajouts à la famille Gemma
- PaliGemma : Google annonce que son premier modèle ouvert de langage de vision est disponible et optimisé pour le sous-titrage d'images, les questions-réponses visuelles et d'autres tâches d'étiquetage d'images. PaliGemma rejoint les autres variantes pré-entraînées de Gemma, CodeGemma et RecurrentGemma.
- Gemma 2 : La nouvelle génération de Gemma sera lancée en juin. Elle est conçue pour offrir les meilleures performances de l'industrie aux tailles les plus utiles pour les développeurs. Les développeurs et les chercheurs ont demandé un modèle plus grand qui reste dans une taille facile à utiliser. Le nouveau modèle Gemma 27B devrait répondre à cette demande : il surpasse certains modèles qui font plus de deux fois sa taille et fonctionnera efficacement sur les GPU ou sur un hôte TPU unique dans Vertex AI.
Google annonce aussi un concours pour les développeurs de l'API Gemini :
Aujourd'hui, nous donnons le coup d'envoi de notre tout premier concours des développeurs de l'API Gemini. Nous voulons voir vos applications les plus créatives et les plus percutantes construites avec des modèles Gemini.1 Soumettez vos projets d'ici le 12 août (et préparez-vous à recevoir le grand prix).
Et vous ?
Quel est votre avis sur cette annonce ?
Voir aussi :
Gemini 1.5 pro en passe de changer le développement de logiciels ? Cette IA peut comprendre une base de code entière et proposer des correctifs : Vers une mise au rebut des développeurs humains ?
Google donne plus de détails sur Gemma, une famille de modèles d'IA ouverts qui a servi à créer Gemini, avec une nouvelle boîte à outils d'IA générative pour l'adapter à vos besoins
Gemini Pro 1.5 : l'une des utilisations du modèle d'IA de Google est de générer du code à partir de vidéos, avec un contexte d'1 million de jetons, dépassant Claude 2.1 et gpt-4-turb