IdentifiantMot de passe
Loading...
Mot de passe oublié ?Je m'inscris ! (gratuit)

Vous êtes nouveau sur Developpez.com ? Créez votre compte ou connectez-vous afin de pouvoir participer !

Vous devez avoir un compte Developpez.com et être connecté pour pouvoir participer aux discussions.

Vous n'avez pas encore de compte Developpez.com ? Créez-en un en quelques instants, c'est entièrement gratuit !

Si vous disposez déjà d'un compte et qu'il est bien activé, connectez-vous à l'aide du formulaire ci-dessous.

Identifiez-vous
Identifiant
Mot de passe
Mot de passe oublié ?
Créer un compte

L'inscription est gratuite et ne vous prendra que quelques instants !

Je m'inscris !

Gemini 3.1 Flash Live : Google déploie un agent vocal si naturel qu'il serait plus difficile de savoir si vous parlez à un robot
Offrant une expérience plus intuitive aux développeurs et aux entreprises

Le , par Stéphane le calme

36PARTAGES

4  0 
Google franchit un nouveau seuil avec Gemini 3.1 Flash Live, son modèle vocal le plus avancé à ce jour : réponses quasi instantanées, plus précises, suppression du bruit ambiant et support de plus de 90 langues. Le tout avec, en filigrane, une question qui dérange : sommes-nous encore capables de distinguer une machine d'un être humain au téléphone ?

Il y a quelques années encore, l'IA conversationnelle se trahissait d'elle-même : pauses robotiques, intonation plate, incompréhension dès que la phrase sortait des sentiers battus. Ces défauts, aussi énervants que rassurants, constituaient une forme involontaire de marqueur. On savait à qui on avait affaire. Ce repère est en train de disparaître.

Le 26 mars 2026, Google a annoncé Gemini 3.1 Flash Live, présenté comme son modèle audio et vocal de la plus haute qualité à ce jour. Le modèle est immédiatement disponible pour les développeurs via l'API Gemini Live dans Google AI Studio, pour les entreprises via Gemini Enterprise for Customer Experience, et pour le grand public à travers Gemini Live et Search Live. Search Live est ainsi déployé dans plus de 200 pays et territoires, dans toutes les langues où le mode IA est actuellement disponible.

Ce déploiement massif et simultané n'est pas anodin. Il signale que Google considère cette technologie suffisamment mature pour l'exposer à des centaines de millions d'utilisateurs et ce dès maintenant.

Moins de silence, plus d'intelligence

Le premier reproche adressé aux assistants vocaux IA a toujours été la latence. Entre le moment où l'utilisateur finit de parler et celui où la réponse commence, le délai pouvait rendre la conversation artificielle, voire frustrante. Les chercheurs considèrent généralement que 300 millisecondes constituent le seuil au-delà duquel la perception de la parole se dégrade, mais Google n'a pas communiqué de chiffre précis pour Gemini 3.1 Flash Live. La firme préfère avancer ses résultats sur les benchmarks.

Sur le ComplexFuncBench Audio, un test mesurant l'enchaînement de fonctions multiples avec contraintes, le modèle obtient un score de 90,8 %, surpassant ses prédécesseurs. Sur le BigBench Audio, qui évalue le raisonnement à partir de 1 000 questions audio, Gemini 3.1 Flash Live se hisse en tête du classement. Quant au Scale AI Audio MultiChallenge, conçu pour évaluer la capacité à gérer interruptions et hésitations typiques d'une vraie conversation, le modèle obtient 36,1 % avec le mode « thinking » activé et domine là aussi ses concurrents directs.

Ces chiffres ne sont pas de la pure rhétorique marketing. L'Audio MultiChallenge teste précisément ce qui fait la substance d'une vraie conversation : les reprises, les changements de sujet à mi-phrase, les « euh » et les interruptions. C'est là que les anciens systèmes craquaient.


Comprendre la frustration, pas seulement les mots

Gemini 3.1 Flash Live a évolué pour mieux reconnaître les nuances acoustiques telles que le ton et le rythme, lui permettant de gérer des tâches complexes dans des environnements bruyants et de répondre avec précision aux expressions émotionnelles comme la frustration ou la confusion de l'utilisateur. Le modèle est plus efficace pour filtrer les bruits de fond et distinguer la parole pertinente des sons environnementaux comme la circulation ou la télévision allumée en arrière-plan. Pour le développement d'agents vocaux destinés à des centres de service client, qui représentent un marché colossal, cette capacité est déterminante.

Du côté de Gemini Live, les réponses sont désormais plus rapides, avec moins de silences gênants, et le modèle peut suivre le fil d'une conversation deux fois plus longtemps qu'auparavant, ajustant dynamiquement la longueur et le ton de ses réponses selon le contexte.


Google, Verizon et Home Depot : le marché des robots téléphoniques

L'annonce de Google est accompagnée de témoignages de partenaires industriels qui ont testé le modèle en conditions réelles. Des entreprises comme Verizon, LiveKit et The Home Depot ont fourni des retours positifs sur l'intégration de Gemini 3.1 Flash Live dans leurs flux de travail, soulignant la qualité améliorée et le naturel des conversations.

Ces partenariats...
La fin de cet article est réservée aux abonnés. Soutenez le Club Developpez.com en prenant un abonnement pour que nous puissions continuer à vous proposer des publications.

Une erreur dans cette actualité ? Signalez-nous-la !