Google Gemini est une famille de grands modèles de langage multimodaux développés par Google DeepMind, servant de successeur à LaMDA et PaLM 2. Composé de Gemini Ultra, Gemini Pro, Gemini Flash, et Gemini Nano, cette famille de modèle d'IA a été annoncée le 6 décembre 2023, se positionnant comme un concurrent du GPT-4 d'OpenAI. Gemini alimente le chatbot du même nom.
Contexte long et mise en cache du contexte
Lors de la conférence I/O, Google a annoncé derrière une liste d'attente la plus longue fenêtre de contexte existante avec 2 millions de tokens dans Gemini 1.5 Pro. Aujourd'hui, Google ouvre l'accès à la fenêtre de contexte de 2 millions de jetons sur Gemini 1.5 Pro à tous les développeurs.
Plus la fenêtre de contexte s'agrandit, plus les coûts d'entrée risquent d'augmenter. Pour aider les développeurs à réduire les coûts des tâches qui utilisent les mêmes jetons dans plusieurs invites, Google a lancé la mise en cache du contexte dans l'API Gemini pour Gemini 1.5 Pro et 1.5 Flash.
Exécution du code
Les LLM ont toujours eu du mal à résoudre les problèmes de raisonnement mathématique ou de données. La génération et l'exécution de code capable de raisonner sur de tels problèmes contribuent à la précision.
Pour permettre aux développeurs d'exploiter ces capacités, Google a activé l'exécution de code pour Gemini 1.5 Pro et 1.5 Flash. Une fois activée, la fonction d'exécution de code peut être dynamiquement exploitée par le modèle pour générer et exécuter du code Python et apprendre de manière itérative à partir des résultats jusqu'à ce qu'il parvienne à un résultat final souhaité. Le bac à sable d'exécution n'est pas connecté à l'internet, il est livré en standard avec quelques bibliothèques numériques, et les développeurs sont simplement facturés sur la base des jetons de sortie du modèle.
Il s'agit de la première avancée de Google en matière d'exécution de code en tant que capacité de modèle. Elle est disponible dès aujourd'hui via l'API Gemini et dans Google AI Studio, sous "paramètres avancés".
Gemma 2 dans Google AI Studio
Google a souhaité rendre l'IA accessible à tous les développeurs, qu'il s'agisse d'intégrer ses modèles Gemini via une clé API ou d'utiliser ses modèles ouverts tels que Gemma 2.
Pour aider les développeurs à se familiariser avec le modèle Gemma 2, Google le met à leur disposition dans Google AI Studio à des fins d'expérimentation.
Gemini 1.5 Flash en production
Gemini 1.5 Flash a été conçu pour répondre à la demande des développeurs en matière de rapidité et d'accessibilité. Google continue d'être enthousiasmé par la façon dont les développeurs innovent avec Gemini 1.5 Flash et utilisent le modèle en production :
- Envision permet aux personnes aveugles ou malvoyantes de mieux comprendre leur environnement immédiat grâce à une application ou à des lunettes intelligentes et de poser des questions spécifiques. Grâce à la vitesse de Gemini 1.5 Flash, les utilisateurs d'Envision peuvent obtenir des descriptions en temps réel de leur environnement, ce qui est essentiel pour leur permettre de s'orienter dans le monde.
- Plural, une plateforme automatisée d'analyse et de suivi des politiques, utilise Gemini 1.5 Flash pour résumer et raisonner avec des documents législatifs complexes pour les ONG et les citoyens intéressés par la politique, afin qu'ils puissent avoir un impact sur la façon dont les projets de loi sont adoptés.
- Zapier exploite les capacités de raisonnement vidéo de Gemini 1.5 Flash pour extraire des détails spécifiques de séquences vidéo brutes dans des tables Zapier, offrant ainsi de nouvelles possibilités d'automatisation pour l'édition vidéo.
- Dot, une IA conçue pour évoluer avec l'utilisateur et devenir de plus en plus personnalisée au fil du temps, a exploité Gemini 1.5 Flash pour un certain nombre de tâches de compression de l'information qui sont essentielles à son système de mémoire à long terme agentique. Pour Dot, 1.5 Flash offre des performances similaires à celles de modèles plus onéreux à moins d'un dixième du coût pour des tâches telles que la création de résumés, le filtrage et le reclassement.
Conformément à l'annonce faite par Google le mois dernier, l'entreprise travaille d'arrache-pied pour mettre le réglage de Gemini 1.5 Flash à la disposition de tous les développeurs, afin de permettre de nouveaux cas d'utilisation, d'accroître la robustesse de la production et d'améliorer la fiabilité.
L'optimisation de texte dans 1.5 Flash est maintenant prête pour le red-teaming et sera déployée progressivement pour les développeurs à partir d'aujourd'hui. Tous les développeurs pourront accéder à l'optimisation de Gemini 1.5 Flash via l'API Gemini et dans Google AI Studio d'ici la mi-juillet.
Source : Google
Et vous ?
Quel est votre avis sur le sujet ?
Voir aussi :
Gemini Pro 1.5 : l'une des utilisations du modèle d'IA de Google est de générer du code à partir de vidéos, avec un contexte d'1 million de jetons, dépassant Claude 2.1 et gpt-4-turb
Google annonce des améliorations de Gemini 1.5 Pro et un nouveau modèle 1.5 Flash, similaire au GPT-4o récemment dévoilé par OpenAI, conçu pour la vitesse et utile pour les conversations en temps réel