Google a lancé Gemini 2.5 Flash, une mise à jour majeure de sa famille d'intelligence artificielle (IA) qui donne aux entreprises et aux développeurs un contrôle sans précédent sur le degré de « raisonnement » de leur IA. Le nouveau modèle, disponible aujourd'hui en avant-première via Google AI Studio et Vertex AI, représente un effort stratégique pour offrir des capacités de raisonnement améliorées tout en maintenant des prix compétitifs sur le marché de l'IA, de plus en plus encombré.Ce développement fait suite au lancement par Google DeepMind de Gemini 2.5 Pro en mars 2025. Selon Google, ce modèle de raisonnement est conçu pour résoudre efficacement les problèmes complexes et se classe parmi les meilleurs sur plusieurs critères de référence en matière de raisonnement et de codage.
Conçu pour résoudre plus efficacement les problèmes complexes, Gemini 2.5 Pro a surpassé expérimentalement les modèles concurrents sur plusieurs critères de référence, selon Google.
Gemini 2.5 Flash introduit ce que Google appelle un « budget de raisonnement », un mécanisme qui permet aux développeurs de spécifier la puissance de calcul à allouer au raisonnement sur des problèmes complexes avant de générer une réponse. Cette approche vise à résoudre une tension fondamentale sur le marché actuel de l'IA : un raisonnement plus sophistiqué s'accompagne généralement d'une latence et d'une tarification plus élevées.
« Nous savons que le coût et la latence sont importants pour un certain nombre de cas d'utilisation des développeurs, et nous voulons donc offrir aux développeurs la flexibilité d'adapter la quantité de raisonnement que le modèle effectue, en fonction de leurs besoins », a déclaré Tulsee Doshi, directeur de produit pour Gemini Models chez Google DeepMind.
Cette flexibilité révèle l'approche pragmatique de Google en matière de déploiement de l'IA, alors que la technologie s'intègre de plus en plus dans des applications commerciales où la prévisibilité des coûts est essentielle.
Le premier modèle de raisonnement entièrement hybride de Google
En permettant d'activer ou de désactiver la capacité de raisonnement, Google a créé ce qu'il appelle son « premier modèle de raisonnement entièrement hybride ». Gemini 2.5 Flash s'appuye sur le modèle populaire 2.0 Flash de Google. Cette nouvelle version offre une amélioration majeure des capacités de raisonnement, tout en donnant la priorité à la vitesse et au coût. Le modèle permet également aux développeurs de définir des budgets de raisonnement afin de trouver le bon compromis entre la qualité, le coût et la latence. Selon Google, même si le raisonnement est désactivé, les développeurs peuvent conserver les vitesses rapides de Flash 2.0 et améliorer les performances.
Les modèles Gemini 2.5 de Google sont des modèles de raisonnement, capables de réfléchir avant de répondre. Au lieu de générer immédiatement une sortie, le modèle 2.5 Flash peut effectuer un processus de « raisonnement » pour mieux comprendre l'invite, décomposer les tâches complexes et planifier une réponse. Pour les tâches complexes nécessitant plusieurs étapes de raisonnement (comme la résolution de problèmes mathématiques ou l'analyse de questions de recherche), le processus de raisonnement permet au modèle d'obtenir des réponses plus précises et plus complètes.
Selon l'entreprise, Gemini 2.5 Flash obtient d'excellents résultats sur les questions difficiles dans LMArena, juste derrière 2.5 Pro.
2.5 Flash présente des caractéristiques comparables à celles d'autres modèles de premier plan pour une fraction du coût et de la taille.
Ne payez que pour la matière grise dont vous avez besoin : Au cœur du nouveau modèle de tarification de l'IA de Google
La nouvelle structure tarifaire met en évidence le coût du raisonnement dans les systèmes d'IA actuels. Lorsqu'ils utilisent Gemini 2.5 Flash, les développeurs paient 0,15 dollar par million de jetons pour les données d'entrée. Les coûts de sortie varient considérablement en fonction des paramètres de raisonnement : 0,60 $ par million de jetons avec le raisonnement désactivé, passant à 3,50 $ par million de jetons avec le raisonnement activé.
Cette différence de prix de près de six fois pour les sorties raisonnées reflète l'intensité informatique du processus de « raisonnement », au cours duquel le modèle évalue plusieurs voies et considérations potentielles avant de générer une réponse.
« Les clients paient pour tous les jetons de raisonnement et de sortie que le modèle génère », a déclaré Doshi. « Dans l'interface utilisateur d...
La fin de cet article est réservée aux abonnés. Soutenez le Club Developpez.com en prenant un abonnement pour que nous puissions continuer à vous proposer des publications.