Google annonce la disponibilité de Gemini 2.5 Flash-Lite, son modèle d'IA le plus rapide et le moins cher de la famille de modèles 2.5

Avec un prix plus bas et une fenêtre contextuelle de 1 million de tokens

Le 25 juillet 2025 à 07:19, par Jade Emy

13PARTAGES

Google annonce la disponibilité de Gemini 2.5 Flash-Lite, son modèle d'IA le plus rapide et le moins cher de la famille de modèles 2.5, avec un prix plus bas et une fenêtre contextuelle de 1 million

Gemini 2.5 Flash-Lite est disponible pour tous et prêt pour la production via Vertex AI et Google AI Studio. Par rapport à son prédécesseur, il offre des performances plus rapides et plus cohérentes en matière de traduction, de codage de base et de traitement des entrées multimodales. Google a également réduit ses prix : les entrées coûtent désormais 0,10 $ et les sorties 0,40 $ par million de jetons, avec une réduction de 40 % des tarifs des entrées audio.

En juin, Google a annoncé Gemini 2.5 Flash-Lite en accès anticipé. Gemini 2.5 Flash-Lite est le dernier modèle léger des produits d'IA de Google, conçu pour les charges de travail où la vitesse et l'efficacité sont primordiales. Selon Google, la conception de Flash-Lite donne la priorité à la latence, offrant des réponses plus rapides tout en consommant moins de ressources informatiques. Cela en fait une option viable pour les applications à grande échelle où la rentabilité et la rapidité de traitement sont des considérations majeures.

Lors de son annonce, Google a affirmé que malgré sa nature compacte, Flash-Lite conserve les fonctionnalités essentielles de la famille Gemini 2.5, notamment la prise en charge d'une fenêtre contextuelle d'un million de jetons, ce qui lui permet de traiter des documents, des conversations et des bases de code volumineux. Il s'intègre également à Google Search et aux outils d'exécution de code, traite les entrées multimodales et fournit des réponses précises pour diverses tâches.

Désormais, Gemini 2.5 Flash-Lite est disponible pour tous et prêt pour la production via Vertex AI et Google AI Studio. Par rapport à son prédécesseur, il offre des performances plus rapides et plus cohérentes en matière de traduction, de codage de base et de traitement des entrées multimodales. Google a également réduit ses prix : les entrées coûtent désormais 0,10 $ et les sorties 0,40 $ par million de jetons, avec une réduction de 40 % des tarifs des entrées audio. Flash-Lite est désormais moins cher que des alternatives telles que o4-mini d'OpenAI et Claude Sonnet 4 d'Anthropic. Il prend en charge une fenêtre contextuelle d'un million de jetons, des budgets de réflexion ajustables, l'exécution de code et Google Search Grounding.

Présentation de Gemini 2.5 Flash-Lite

Selon Google, Gemini 2.5 Flash-Lite offre un équilibre entre performances et coût, sans compromettre la qualité, en particulier pour les tâches sensibles à la latence telles que la traduction et la classification. En comparaison aux autres modèles de Google, Gemini 2.5 Flash-Lite présente une latence inférieure à celle de 2.0 Flash-Lite et 2.0 Flash sur un large échantillon de prompts. Gemini 2.5 Flash-Lite affiche une qualité globalement supérieure à celle de Flash-Lite 2.0 dans un large éventail de benchmarks, notamment en matière de codage, de mathématiques, de sciences, de raisonnement et de compréhension multimodale.

Il s'agit également du modèle 2.5 le moins cher à ce jour, avec un prix de 0,10 $ pour 1 million de jetons d'entrée et de 0,40 $ pour les jetons de sortie, ce qui vous permet de traiter de grands volumes de requêtes à un prix abordable. En outre, le prix des entrées audio a été réduit de 40 % par rapport au lancement en avant-première. Lorsque vous développez avec Flash-Lite 2.5, vous avez accès à une fenêtre contextuelle d'un million de jetons, à des budgets de réflexion contrôlables et à la prise en charge d'outils natifs tels que Grounding with Google Search, Code Execution et URL Context.

Vous pouvez commencer à utiliser 2.5 Flash-Lite en spécifiant « gemini-2.5-flash-lite » dans votre code. Si vous utilisez la version avant-première, vous pouvez passer à « gemini-2.5-flash-lite », qui est le même modèle sous-jacent. Google prévoit de supprimer l'alias avant-première de Flash-Lite le 25 août.

Voici quelques retours partagés par Google des déploiements en production de Gemini 2.5 Flash-Lite :

Satlyt développe une plateforme informatique spatiale décentralisée qui va transformer la manière dont les données satellitaires sont traitées et utilisées pour la synthèse en temps réel de la télémétrie en orbite, la gestion autonome des tâches et l'analyse des communications entre satellites. La vitesse de Flash-Lite 2.5 a permis de réduire de 45 % la latence des diagnostics critiques à bord et de 30 % la consommation d'énergie par rapport à leurs modèles de référence.
HeyGen utilise l'IA pour créer des avatars pour le contenu vidéo et exploite Gemini 2.5 Flash-Lite pour automatiser la planification vidéo, analyser et optimiser le contenu, et traduire les vidéos dans plus de 180 langues. Cela leur permet d'offrir à leurs utilisateurs une expérience personnalisée à l'échelle mondiale.
DocsHound transforme les démonstrations de produits en documentation en utilisant Gemini 2.5 Flash-Lite pour traiter de longues vidéos et extraire des milliers de captures d'écran avec une faible latence. Cela transforme les séquences en documentation complète et en données de formation pour les agents IA beaucoup plus rapidement que les méthodes traditionnelles.
Evertune aide les marques à comprendre comment elles sont représentées dans les modèles IA. Gemini 2.5 Flash-Lite change la donne pour eux, en accélérant considérablement l'analyse et la génération de rapports. Ses performances rapides leur permettent de scanner et de synthétiser rapidement de grands volumes de résultats de modèles afin de fournir à leurs clients des informations dynamiques et opportunes.

Voici un extrait de l'annonce de Google :

Aujourd'hui, nous lançons la version stable de Gemini 2.5 Flash-Lite, notre modèle le plus rapide et le moins cher (0,10 $ d'entrée par 1 million, 0,40 $ de sortie par 1 million) de la famille de modèles Gemini 2.5. Nous avons conçu 2.5 Flash-Lite pour repousser les limites de l'intelligence par dollar, avec des capacités de raisonnement natives qui peuvent être activées en option pour les cas d'utilisation plus exigeants. S'appuyant sur la dynamique de 2.5 Pro et 2.5 Flash, ce modèle complète notre gamme de modèles 2.5 prêts à être utilisés à grande échelle.

Sources : Annonce de Google, Présentation de Gemini 2.5 Flash-Lite

Et vous ?

Pensez-vous que cette annonce est crédible ou pertinente ?

Quel est votre avis sur le sujet ?

Voir aussi :

Google I/O 2025 : toutes les annonces majeures qu'il faut retenir de la conférence centrée sur l'IA. Google présente une architecture numérique tournée vers l'IA générative avec Gemini comme OS invisible

Les organisations utiliseront trois fois plus de petits modèles d'IA spécifiques à une tâche que de grands LLM à usage général, pour des réponses plus rapides et moins de puissance de calcul, d'après Gartner

Qualité vs prix : Mistral 8x7B est le modèle d'IA le plus rapide et le plus accessible en matière de coût,
Tandis que GPT-4 Turbo et Claude 3 Opus fournissent des réponses de meilleure qualité

Vous avez lu gratuitement 3 195 articles depuis plus d'un an.
Soutenez le club developpez.com en souscrivant un abonnement pour que nous puissions continuer à vous proposer des publications.

Une erreur dans cette actualité ? Signalez-nous-la !

Votre nom : Votre e-mail :

Décrivez l'erreur que vous souhaitez porter à notre connaissance :

Identifiez-vous

Créer un compte

Google annonce la disponibilité de Gemini 2.5 Flash-Lite, son modèle d'IA le plus rapide et le moins cher de la famille de modèles 2.5

Avec un prix plus bas et une fenêtre contextuelle de 1 million de tokens

Identifiant
Mot de passe

Mot de passe oublié ?

Identifiez-vous

Créer un compte

Google annonce la disponibilité de Gemini 2.5 Flash-Lite, son modèle d'IA le plus rapide et le moins cher de la famille de modèles 2.5 Avec un prix plus bas et une fenêtre contextuelle de 1 million de tokens

Google annonce la disponibilité de Gemini 2.5 Flash-Lite, son modèle d'IA le plus rapide et le moins cher de la famille de modèles 2.5

Avec un prix plus bas et une fenêtre contextuelle de 1 million de tokens