Google a annoncé une importante expansion de sa gamme de modèles d'IA Gemini et dévoile Gemini 2.5 Flash-Lite, un modèle hautement efficace

Tout en rendant 2.5 Flash et 2.5 Pro disponibles pour tous

Le 19 juin 2025 à 08:48, par Jade Emy

132PARTAGES

Google a annoncé une importante expansion de sa gamme de modèles d'IA Gemini et dévoile Gemini 2.5 Flash-Lite, un modèle hautement efficace, tout en rendant 2.5 Flash et 2.5 Pro disponibles pour tous.

Google a annoncé la mise à disposition générale de ses modèles d'IA Gemini 2.5 Flash et Gemini 2.5 Pro, les rendant stables pour les applications de production. Cette expansion de la famille Gemini 2.5 comprend également le dévoilement d'un aperçu de Gemini 2.5 Flash-Lite, positionné comme le modèle le plus rentable et le plus rapide de la série. Google affirme notamment : "Nous avons conçu Gemini 2.5 pour être une famille de modèles de raisonnement hybrides offrant des performances exceptionnelles, tout en se situant à la frontière de Pareto en termes de coût et de vitesse."

Au début du mois, Google a publié une "préversion améliorée" 06-05 de Gemini 2.5 Pro qui serait bientôt disponible dans les semaines à venir. Google note que la version 06-05 affiche "une augmentation de 24 points du score Elo sur LMArena", avec un score de 1470, tandis qu'elle affiche "une augmentation de 35 points du score Elo, ce qui la place en tête sur WebDevArena avec un score de 1443".

Récemment, Google a annoncé la mise à disposition générale de ses modèles d'IA Gemini 2.5 Flash et Gemini 2.5 Pro, les rendant stables pour les applications de production. Cette expansion de la famille Gemini 2.5 comprend également le dévoilement d'un aperçu de Gemini 2.5 Flash-Lite, positionné comme le modèle le plus rentable et le plus rapide de la série. Le passage de Gemini 2.5 Flash et 2.5 Pro de la phase d'avant-première à la disponibilité générale fait suite à une période de commentaires approfondis de la part des développeurs et des entreprises. Des sociétés telles que Snap, SmartBear, Spline et Rooms ont déjà intégré ces modèles dans leurs applications.

"Nous avons conçu Gemini 2.5 pour être une famille de modèles de raisonnement hybrides offrant des performances exceptionnelles, tout en se situant à la frontière de Pareto en termes de coût et de vitesse. Aujourd'hui, nous franchissons une nouvelle étape avec nos modèles 2.5 Pro et Flash en les rendant stables et disponibles pour tous. Et nous vous proposons 2.5 Flash-Lite en avant-première, notre modèle 2.5 le plus rentable et le plus rapide à ce jour", a annoncé Google.

Le tout nouveau Gemini 2.5 Flash-Lite est le dernier-né des produits d'IA de Google, conçu pour les charges de travail où la vitesse et l'efficacité sont primordiales. Ce modèle léger est désormais disponible en avant-première, afin que les développeurs puissent évaluer ses capacités et faire part de leurs commentaires. Selon Google, la conception de Flash-Lite donne la priorité à la latence, offrant des réponses plus rapides tout en consommant moins de ressources informatiques. Cela en fait une option viable pour les applications à grande échelle où la rentabilité et la rapidité de traitement sont des considérations majeures.

Malgré sa nature compacte, Flash-Lite conserve les fonctionnalités essentielles de la famille Gemini 2.5, notamment la prise en charge d'une fenêtre contextuelle d'un million de jetons, ce qui lui permet de traiter des documents, des conversations et des bases de code volumineux. Il s'intègre également à Google Search et aux outils d'exécution de code, traite les entrées multimodales et fournit des réponses précises pour diverses tâches.

Tous les modèles de la série Gemini 2.5 sont basés sur une architecture Mixture-of-Experts (MoE). Cette conception permet aux modèles d'activer uniquement les réseaux neuronaux spécifiques pertinents pour une invite donnée, optimisant ainsi l'utilisation du matériel et contribuant à réduire les coûts d'inférence. De plus, les modèles Gemini 2.5 représentent la première génération formée à l'aide de la puce IA TPUv5p développée en interne par Google, utilisant des clusters équipés d'un nouveau logiciel pour atténuer les problèmes techniques pendant la formation.

Gemini 2.5 Pro et Flash étant désormais disponibles pour le grand public, ils fournissent des modèles stables et prêts à l'emploi pour des tâches complexes telles que le codage avancé, le raisonnement complexe et la compréhension multimodale, ce qui peut être utile pour garantir la fiabilité et des performances constantes, tandis que les différents modèles (Pro pour la puissance, Flash pour la vitesse, Flash-Lite pour une efficacité extrême) permettent une meilleure optimisation des ressources en fonction des besoins spécifiques.

Les développeurs peuvent accéder aux versions stables de Gemini 2.5 Flash et Pro via Google AI Studio, Vertex AI et l'application Gemini. L'aperçu de Gemini 2.5 Flash-Lite est disponible via Google AI Studio et Vertex AI. Des versions personnalisées de Flash et Flash-Lite ont également été intégrées à Google Search, étendant leurs capacités à diverses fonctionnalités d'IA liées à la recherche, où Google vise à utiliser le modèle le plus adapté à chaque requête.

Les structures tarifaires de la famille Gemini 2.5 élargie reflètent les différentes capacités et les cas d'utilisation cibles de chaque modèle. Gemini 2.5 Flash-Lite est fixé à 0,10 $ par million de jetons d'entrée (pour le texte, les images ou la vidéo) et à 0,40 $ par million de jetons de sortie, ce qui en fait le point d'entrée le plus économique. Gemini 2.5 Flash coûte 0,30 $ par million de jetons d'entrée et 2,50 $ par million de jetons de sortie.

Cette annonce semble confirmer les efforts de Google en matière d'IA. Pour rappel, en mai 2025, un rapport a montré que Google a dépassé IBM pour devenir le leader des brevets liés à l'IA générative et prend désormais la tête dans le domaine de l'IA agentique. Si les dépôts de brevets ne mesurent pas directement la qualité de l'innovation, ils constituent des indicateurs précieux des priorités de recherche et des investissements stratégiques. L'ascension de Google dans ces classements s'aligne sur ses initiatives plus larges en matière d'IA, y compris des investissements substantiels dans les technologies d'IA générative et agentique.

Voici un extrait de l'annonce de Google :

Nous sommes ravis de vous présenter aujourd'hui les mises à jour apportées à l'ensemble de notre gamme de modèles Gemini 2.5 :

Gemini 2.5 Pro est désormais disponible et stable (aucun changement par rapport à la préversion 06-05).
Gemini 2.5 Flash est désormais disponible et stable (aucun changement par rapport à la préversion 05-20, voir les mises à jour des tarifs).
Gemini 2.5 Flash-Lite est désormais disponible en avant-première.

Les modèles Gemini 2.5 sont des modèles de réflexion, capables de raisonner avant de répondre, ce qui se traduit par des performances accrues et une précision améliorée. Chaque modèle contrôle son budget de réflexion, ce qui permet aux développeurs de choisir quand et combien le modèle « réfléchit » avant de générer une réponse.

Présentation de Gemini 2.5 Flash-Lite

Gemini 2.5 Flash-Lite est maintenant dispponible en avant-première, avec la latence et le coût les plus bas de la famille de modèles 2.5. Il est conçu comme une mise à niveau rentable par rapport aux précédents modèles Flash 1.5 et 2.0. Il offre également de meilleures performances dans la plupart des évaluations, un temps de premier jeton plus court et un débit de décodage par seconde plus élevé. Ce modèle est idéal pour les tâches à haut débit telles que la classification ou la synthèse à grande échelle.

Gemini 2.5 Flash-Lite est un modèle de raisonnement qui permet un contrôle dynamique du budget de réflexion à l'aide d'un paramètre API. Flash-Lite étant optimisé en termes de coût et de vitesse, la "réflexion" est désactivée par défaut, contrairement aux autres modèles. 2.5 Flash-Lite prend également en charge des outils natifs tels que Grounding with Google Search, Code Execution et URL Context, en plus de l'appel de fonctions.

Mises à jour de Gemini 2.5 Flash et tarification

Lorsque 2.5 Flash a été initialement annoncé, les capacités de 2.5 Flash-Lite n'étaient pas encore finalisées. Google a donc annoncé un "prix avec réflexion" et un "prix sans réflexion", ce qui a semé la confusion chez les développeurs. Cependant, avec le déploiement de la version stable de Gemini 2.5 Flash, voici la tarification de 2.5 Flash :

0,30 $ / 1 million de jetons d'entrée (*contre 0,15 $ auparavant)
2,50 $ / 1 million de jetons de sortie (*contre 3,50 $ auparavant)
La différence de prix entre les modèles "avec réflexion" et "sans réflexion" a été supprimée.
Un prix unique, quelle que soit la taille des jetons d'entrée.

Google commente notamment ce changement : "Bien que nous nous efforcions de maintenir une tarification cohérente entre les versions préliminaires et les versions stables afin de minimiser les perturbations, il s'agit d'un ajustement spécifique qui reflète la valeur exceptionnelle de Flash, qui offre toujours le meilleur rapport coût/intelligence disponible. Et avec Gemini 2.5 Flash-Lite, nous proposons désormais une option encore moins coûteuse (avec ou sans réflexion) pour les cas d'utilisation sensibles au coût et à la latence qui nécessitent moins d'intelligence du modèle."

Si vous utilisez Gemini 2.5 Flash Preview 04-17, le prix de la préversion existante restera en vigueur jusqu'à sa suppression prévue le 15 juillet 2025, date à laquelle le point de terminaison du modèle sera désactivé. Vous pouvez passer au modèle « gemini-2.5-flash » disponible en général, ou opter pour la version 2.5 Flash-Lite Preview, qui constitue une option moins coûteuse.

Mise à jour de Gemini 2.5 Pro

Google annonce que la version 06-05 est maintenant la version stable du modèle. Google affirme que cette version Pro sera "particulièrement utile dans les cas où vous avez besoin d'une intelligence et de capacités maximales, comme le codage et les tâches d'agent." Gemini 2.5 Pro est au cœur des outils de développement très appréciés.

Si vous utilisez la version 2.5 Pro Preview 05-06, le modèle restera disponible jusqu'au 19 juin 2025, puis sera désactivé. Si vous utilisez la version 2.5 Pro Preview 06-05, il vous suffit de mettre à jour votre chaîne de modèle en « gemini-2.5-pro ».

Source : Annonce de Google

Et vous ?

Pensez-vous que cette annonce est crédible ou pertinente ?

Quel est votre avis sur le sujet ?

Voir aussi :

Google I/O 2025 : toutes les annonces majeures qu'il faut retenir de la conférence centrée sur l'IA. Google présente une architecture numérique tournée vers l'IA générative avec Gemini comme OS invisible

Les agents IA basés sur le LLM obtiennent des résultats inférieurs à la moyenne lors des tests CRM standard et ne comprennent pas la nécessité de préserver la confidentialité des clients, selon Salesforce

Google annonce en avant-première Gemma 3n, la dernière version de son modèle d'IA ouvert capable de fonctionner sur un seul GPU. Gemma 3n serait une IA puissante, efficace et mobile-first

Vous avez lu gratuitement 38 890 articles depuis plus d'un an.
Soutenez le club developpez.com en souscrivant un abonnement pour que nous puissions continuer à vous proposer des publications.

Une erreur dans cette actualité ? Signalez-nous-la !

Votre nom : Votre e-mail :

Décrivez l'erreur que vous souhaitez porter à notre connaissance :

Identifiez-vous

Créer un compte

Google a annoncé une importante expansion de sa gamme de modèles d'IA Gemini et dévoile Gemini 2.5 Flash-Lite, un modèle hautement efficace

Tout en rendant 2.5 Flash et 2.5 Pro disponibles pour tous

Identifiant
Mot de passe

Mot de passe oublié ?

Identifiez-vous

Créer un compte

Google a annoncé une importante expansion de sa gamme de modèles d'IA Gemini et dévoile Gemini 2.5 Flash-Lite, un modèle hautement efficace Tout en rendant 2.5 Flash et 2.5 Pro disponibles pour tous

Google a annoncé une importante expansion de sa gamme de modèles d'IA Gemini et dévoile Gemini 2.5 Flash-Lite, un modèle hautement efficace

Tout en rendant 2.5 Flash et 2.5 Pro disponibles pour tous