IdentifiantMot de passe
Loading...
Mot de passe oublié ?Je m'inscris ! (gratuit)

Vous êtes nouveau sur Developpez.com ? Créez votre compte ou connectez-vous afin de pouvoir participer !

Vous devez avoir un compte Developpez.com et être connecté pour pouvoir participer aux discussions.

Vous n'avez pas encore de compte Developpez.com ? Créez-en un en quelques instants, c'est entièrement gratuit !

Si vous disposez déjà d'un compte et qu'il est bien activé, connectez-vous à l'aide du formulaire ci-dessous.

Identifiez-vous
Identifiant
Mot de passe
Mot de passe oublié ?
Créer un compte

L'inscription est gratuite et ne vous prendra que quelques instants !

Je m'inscris !

OpenAI présente gpt-realtime et des mises à jour de l'API Realtime pour les agents IA vocaux en production, notamment le support des serveurs MCP distants et des appels téléphoniques SIP, et la saisie d'image

Le , par Anthony

169PARTAGES

4  0 
OpenAI a lancé gpt-realtime, son modèle d'intelligence artificielle (IA) de synthèse vocale le plus avancé à ce jour, parallèlement à la mise à disponibilité générale de l'API Realtime. Cette mise à jour introduit des fonctionnalités telles que la saisie d'image, la prise en charge des serveurs MCP distants et des appels téléphoniques via le protocole SIP (Session Initiation Protocol), permettant ainsi la mise en place d'agents IA vocaux prêts pour une utilisation en production.

Cette récente initiative s'appuie sur des mises à jour précédentes qui ont permis à ChatGPT de voir, entendre et parler, élargissant ainsi son rôle au-delà des interactions textuelles. Ces capacités ont rapproché le système des assistants numériques grand public tels que Siri d'Apple, mais ont également suscité un débat sur la sécurité des données et la confidentialité des utilisateurs.

À partir de ce 28 août 2025, l'API Realtime d'OpenAI est désormais disponible après son lancement initial en octobre 2024, apportant ce que l'entreprise qualifie de son meilleur modèle d'IA vocale à ce jour : gpt-realtime. Ce système de synthèse vocale traite et génère directement l'audio sans conversion en texte, offrant ainsi des interactions plus rapides et plus naturelles. Il peut interpréter les signaux non verbaux, prend en charge les appels de fonction, change de langue en cours de phrase, ajuste le ton ou l'accent et génère des paroles avec des inflexions émotionnelles.

Les développeurs bénéficient également d'options d'intégration améliorées, notamment la prise en charge du protocole SIP (Session Initiation Protocol) pour permettre les appels téléphoniques et des serveurs MCP (Model Context Protocol) distants pour connecter des outils et services externes.


Parmi les fonctionnalités supplémentaires, on peut citer les prompts réutilisables, les limites de jetons et les contrôles de réduction de session pour gérer les coûts. La prise en charge de la saisie d'images permet en outre de traiter des captures d'écran ou des photos pour la lecture de texte ou les requêtes basées sur le contenu, avec des autorisations configurables par les développeurs. OpenAI a également ajouté deux nouvelles voix synthétiques, Cedar et Marin, en plus des mises à jour apportées aux voix existantes.

Finalement, pour les utilisateurs de l'Union européenne (UE) et les entreprises soucieuses de la confidentialité, les données peuvent être stockées au sein de l'UE selon des règles de conformité plus strictes. Les outils mis à jour sont désormais disponibles via le Playground et la documentation officielle de l'API.

Présentation de gpt-realtime

Le nouveau modèle de synthèse vocale, gpt-realtime, est le modèle vocal d'OpenAI le plus avancé et le mieux adapté à la production. Il a été formé en étroite collaboration avec les clients afin d'exceller dans des tâches concrètes telles que le service client, l'assistance personnelle et l'éducation, en l'adaptant à la manière dont les développeurs créent et déploient des agents vocaux. Le modèle présente notamment des améliorations en termes de qualité audio, d'intelligence, de suivi des instructions et d'appel de fonctions.

Qualité audio

Une conversation au son naturel est essentielle pour déployer des agents vocaux dans le monde réel. Les modèles doivent parler avec l'intonation, l'émotion et le rythme d'un être humain afin de créer une expérience agréable et d'encourager une conversation continue avec les utilisateurs. OpenAI a formé gpt-realtime pour produire un discours de meilleure qualité, plus naturel et capable de suivre des instructions précises, telles que « parler rapidement et de manière professionnelle » ou « parler avec empathie et un accent français ».

La société a également lancé deux nouvelles voix dans l'API, Marin et Cedar, qui apportent des améliorations significatives en matière de naturel de la voix. Ces améliorations viennent s'ajouter aux mises à jour des huit voix existantes.

Intelligence et compréhension

Selon OpenAI, gpt-realtime fait preuve d'une intelligence supérieure et est capable de comprendre les enregistrements audio originaux avec une plus grande précision. Le modèle peut capter les indices non verbaux (comme les rires), changer de langue au milieu d'une phrase et adapter son ton (« vif et professionnel » ou « aimable et empathique »).

D'après les évaluations internes, le modèle affiche des performances plus précises dans la détection de séquences alphanumériques (telles que les numéros de téléphone, les numéros d'identification des véhicules, etc.) dans d'autres langues, notamment l'espagnol, le chinois, le japonais et le français. Sur l'évaluation Big Bench Audio mesurant les capacités de raisonnement, gpt-realtime a obtenu un score de précision de 82,8 %, surpassant le modèle précédent de décembre 2024, qui a obtenu un score de 65,6 %.


Suivi des instructions

Lorsqu'ils développent une application de synthèse vocale, les développeurs fournissent au modèle un ensemble d'instructions sur la manière de se comporter, notamment comment parler, quoi dire dans une situation donnée et quoi faire ou ne pas faire. OpenAI a concentré ses améliorations sur le respect de ces instructions, afin que même les instructions mineures aient plus d'importance pour le modèle. Sur le benchmark audio MultiChallenge...
La fin de cet article est réservée aux abonnés. Soutenez le Club Developpez.com en prenant un abonnement pour que nous puissions continuer à vous proposer des publications.

Une erreur dans cette actualité ? Signalez-nous-la !