
Google a lancé Gemini 2.5 Flash, une mise à jour majeure de sa famille d'intelligence artificielle (IA) qui donne aux entreprises et aux développeurs un contrôle sans précédent sur le degré de « raisonnement » de leur IA. Le nouveau modèle, disponible aujourd'hui en avant-première via Google AI Studio et Vertex AI, représente un effort stratégique pour offrir des capacités de raisonnement améliorées tout en maintenant des prix compétitifs sur le marché de l'IA, de plus en plus encombré.
Ce développement fait suite au lancement par Google DeepMind de Gemini 2.5 Pro en mars 2025. Selon Google, ce modèle de raisonnement est conçu pour résoudre efficacement les problèmes complexes et se classe parmi les meilleurs sur plusieurs critères de référence en matière de raisonnement et de codage.
Conçu pour résoudre plus efficacement les problèmes complexes, Gemini 2.5 Pro a surpassé expérimentalement les modèles concurrents sur plusieurs critères de référence, selon Google.
Gemini 2.5 Flash introduit ce que Google appelle un « budget de raisonnement », un mécanisme qui permet aux développeurs de spécifier la puissance de calcul à allouer au raisonnement sur des problèmes complexes avant de générer une réponse. Cette approche vise à résoudre une tension fondamentale sur le marché actuel de l'IA : un raisonnement plus sophistiqué s'accompagne généralement d'une latence et d'une tarification plus élevées.
« Nous savons que le coût et la latence sont importants pour un certain nombre de cas d'utilisation des développeurs, et nous voulons donc offrir aux développeurs la flexibilité d'adapter la quantité de raisonnement que le modèle effectue, en fonction de leurs besoins », a déclaré Tulsee Doshi, directeur de produit pour Gemini Models chez Google DeepMind.
Cette flexibilité révèle l'approche pragmatique de Google en matière de déploiement de l'IA, alors que la technologie s'intègre de plus en plus dans des applications commerciales où la prévisibilité des coûts est essentielle.
Le premier modèle de raisonnement entièrement hybride de Google
En permettant d'activer ou de désactiver la capacité de raisonnement, Google a créé ce qu'il appelle son « premier modèle de raisonnement entièrement hybride ». Gemini 2.5 Flash s'appuye sur le modèle populaire 2.0 Flash de Google. Cette nouvelle version offre une amélioration majeure des capacités de raisonnement, tout en donnant la priorité à la vitesse et au coût. Le modèle permet également aux développeurs de définir des budgets de raisonnement afin de trouver le bon compromis entre la qualité, le coût et la latence. Selon Google, même si le raisonnement est désactivé, les développeurs peuvent conserver les vitesses rapides de Flash 2.0 et améliorer les performances.
Les modèles Gemini 2.5 de Google sont des modèles de raisonnement, capables de réfléchir avant de répondre. Au lieu de générer immédiatement une sortie, le modèle 2.5 Flash peut effectuer un processus de « raisonnement » pour mieux comprendre l'invite, décomposer les tâches complexes et planifier une réponse. Pour les tâches complexes nécessitant plusieurs étapes de raisonnement (comme la résolution de problèmes mathématiques ou l'analyse de questions de recherche), le processus de raisonnement permet au modèle d'obtenir des réponses plus précises et plus complètes.
Selon l'entreprise, Gemini 2.5 Flash obtient d'excellents résultats sur les questions difficiles dans LMArena, juste derrière 2.5 Pro.
2.5 Flash présente des caractéristiques comparables à celles d'autres modèles de premier plan pour une fraction du coût et de la taille.
Ne payez que pour la matière grise dont vous avez besoin : Au cœur du nouveau modèle de tarification de l'IA de Google
La nouvelle structure tarifaire met en évidence le coût du raisonnement dans les systèmes d'IA actuels. Lorsqu'ils utilisent Gemini 2.5 Flash, les développeurs paient 0,15 dollar par million de jetons pour les données d'entrée. Les coûts de sortie varient considérablement en fonction des paramètres de raisonnement : 0,60 $ par million de jetons avec le raisonnement désactivé, passant à 3,50 $ par million de jetons avec le raisonnement activé.
Cette différence de prix de près de six fois pour les sorties raisonnées reflète l'intensité informatique du processus de « raisonnement », au cours duquel le modèle évalue plusieurs voies et considérations potentielles avant de générer une réponse.
« Les clients paient pour tous les jetons de raisonnement et de sortie que le modèle génère », a déclaré Doshi. « Dans l'interface utilisateur d'AI Studio, vous pouvez voir ces réflexions avant la réponse. Dans l'API, nous ne donnons actuellement pas accès aux réflexions, mais un développeur peut voir combien de jetons ont été générés. »
Le budget de raisonnement peut être ajusté de 0 à 24 576 jetons, fonctionnant comme une limite maximale plutôt que comme une allocation fixe. Selon Google, le modèle détermine intelligemment la part de ce budget à utiliser en fonction de la complexité de la tâche, en préservant les ressources lorsqu'un raisonnement élaboré n'est pas nécessaire.
Gemini 2.5 Flash ajoute un autre modèle à la frontière de pareto de Google entre le coût et la qualité.
Des contrôles fins pour gérer le raisonnement
Google a reconnu que les différents cas d'utilisation ont des compromis différents en termes de qualité, de coût et de latence. Pour donner de la flexibilité aux développeurs, l'entreprise a permis de définir un budget de raisonnement qui offre un contrôle fin sur le nombre maximum de jetons qu'un modèle peut générer pendant qu'il raisonne. Un budget plus élevé permet notamment au modèle de raisonner davantage pour améliorer la qualité. Google souligne que le budget fixe un plafond à la quantité de raisonnement de 2.5 Flash, mais le modèle n'utilise pas la totalité du budget si l'invite ne l'exige pas.
Gemini 2.5 Flash est entraîné à savoir combien de temps il doit réfléchir pour une invite donnée et décide donc automatiquement de la quantité de raisonnement à effectuer en fonction de la complexité perçue de la tâche.
Si un utilisateur souhaite conserver les coûts et la latence les plus bas tout en améliorant les performances par rapport à Flash 2.0, il peut fixer le budget de raisonnement à 0. Il peut également choisir de fixer un budget de jetons spécifique pour la phase de raisonnement à l'aide d'un paramètre dans l'API ou du curseur dans Google AI Studio et dans Vertex AI. Le budget peut aller de 0 à 24576 jetons pour 2,5 Flash.
Amélioration de la qualité du raisonnement à mesure que le budget de raisonnement augmente.
Les invites suivantes illustrent la quantité de raisonnement qui peut être utilisée dans le mode par défaut de 2.5 Flash.
Invites nécessitant un faible raisonnement :
Exemple 1 : « Merci » en espagnol
Exemple 2 : Combien de provinces compte le Canada ?
Invites nécessitant un raisonnement moyen :
Exemple 1 : Vous lancez deux dés. Quelle est la probabilité que le total soit de 7 ?
Exemple 2 : Mon club de sport propose des heures de ramassage pour le basket-ball entre 9 et 15 heures le lundi matin et entre 14 et 20 heures le mardi et le samedi. Si je travaille de 9 à 18 heures, 5 jours par semaine, et que je veux jouer 5 heures au basket-ball en semaine, créez un emploi du temps qui me permette de faire tout cela.
Questions nécessitant un raisonnement poussé :
Exemple 1 : Une poutre en porte-à-faux de longueur L=3m a une section rectangulaire (largeur b=0,1m, hauteur h=0,2m) et est fabriquée en acier (E=200 GPa). Elle est soumise à une charge uniformément répartie w=5 kN/m sur toute sa longueur et à une charge ponctuelle P=10 kN à son extrémité libre. Calculer la contrainte de flexion maximale (σ_max).
Exemple 2 : écrire une fonction evaluate_cells(cells : Dict[str, str]) -> Dict[str, float] qui calcule les valeurs des cellules d'une feuille de calcul.
Chaque cellule contient :
- Un nombre (par exemple, "3")
- Ou une formule comme "=A1 + B1 * 2" utilisant +, -, *,/ et d'autres cellules.
Exigences :
- Résoudre les dépendances entre les cellules.
- Gérer la précédence des opérateurs (*/ avant +-).
- Détecter les cycles et lever ValueError(« Cycle détecté à <cellule> »).
- Pas d'eval(). N'utiliser que les bibliothèques intégrées.
Commencez à construire avec Gemini 2.5 Flash dès maintenant
Gemini 2.5 Flash avec des capacités de raisonnement est désormais disponible en avant-première via l'API Gemini dans Google AI Studio et dans Vertex AI, et dans un menu déroulant dédié dans l'application Gemini. Google a encouragé les utilisateurs à expérimenter le paramètre thinking_budget et à découvrir comment le raisonnement contrôlable peut les aider à résoudre des problèmes plus complexes. L'entreprise a également indiqué qu'elle continuera à améliorer Gemini 2.5 Flash avant de la rendre disponible pour une utilisation en production complète.
Code : | Sélectionner tout |
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 | from google import genai client = genai.Client(api_key="GEMINI_API_KEY") response = client.models.generate_content( model="gemini-2.5-flash-preview-04-17", contents="You roll two dice. What’s the probability they add up to 7?", config=genai.types.GenerateContentConfig( thinking_config=genai.types.ThinkingConfig( thinking_budget=1024 ) ) ) print(response.text) |
Le lancement de Gemini 2.5 Flash fait suite à une période de turbulences pour Google, marquée par les critiques publiques de son PDG à l'encontre de l'outil d'IA Gemini. Dans une note adressée aux employés en février 2024, Sundar Pichai a qualifié les erreurs de diversité commises par Gemini de totalement inacceptables. A l'époque, les réponses biaisées générées par le modèle ont déclenché des réactions négatives de la part des utilisateurs et fait perdre 90 milliards de dollars à la valeur boursière de l'entreprise.
Source : Google
Et vous ?


Voir aussi :



Vous avez lu gratuitement 3 articles depuis plus d'un an.
Soutenez le club developpez.com en souscrivant un abonnement pour que nous puissions continuer à vous proposer des publications.
Soutenez le club developpez.com en souscrivant un abonnement pour que nous puissions continuer à vous proposer des publications.