OpenAI présente gpt-realtime et des mises à jour de l'API Realtime pour les agents IA vocaux en production, notamment le support des serveurs MCP distants et des appels téléphoniques SIP, et la saisie d'image

Le 2 septembre 2025 à 14:00, par Anthony

92PARTAGES

OpenAI a lancé gpt-realtime, son modèle d'intelligence artificielle (IA) de synthèse vocale le plus avancé à ce jour, parallèlement à la mise à disponibilité générale de l'API Realtime. Cette mise à jour introduit des fonctionnalités telles que la saisie d'image, la prise en charge des serveurs MCP distants et des appels téléphoniques via le protocole SIP (Session Initiation Protocol), permettant ainsi la mise en place d'agents IA vocaux prêts pour une utilisation en production.

Cette récente initiative s'appuie sur des mises à jour précédentes qui ont permis à ChatGPT de voir, entendre et parler, élargissant ainsi son rôle au-delà des interactions textuelles. Ces capacités ont rapproché le système des assistants numériques grand public tels que Siri d'Apple, mais ont également suscité un débat sur la sécurité des données et la confidentialité des utilisateurs.

À partir de ce 28 août 2025, l'API Realtime d'OpenAI est désormais disponible après son lancement initial en octobre 2024, apportant ce que l'entreprise qualifie de son meilleur modèle d'IA vocale à ce jour : gpt-realtime. Ce système de synthèse vocale traite et génère directement l'audio sans conversion en texte, offrant ainsi des interactions plus rapides et plus naturelles. Il peut interpréter les signaux non verbaux, prend en charge les appels de fonction, change de langue en cours de phrase, ajuste le ton ou l'accent et génère des paroles avec des inflexions émotionnelles.

Les développeurs bénéficient également d'options d'intégration améliorées, notamment la prise en charge du protocole SIP (Session Initiation Protocol) pour permettre les appels téléphoniques et des serveurs MCP (Model Context Protocol) distants pour connecter des outils et services externes.

https://youtu.be/EUhkjkNENgM

Parmi les fonctionnalités supplémentaires, on peut citer les prompts réutilisables, les limites de jetons et les contrôles de réduction de session pour gérer les coûts. La prise en charge de la saisie d'images permet en outre de traiter des captures d'écran ou des photos pour la lecture de texte ou les requêtes basées sur le contenu, avec des autorisations configurables par les développeurs. OpenAI a également ajouté deux nouvelles voix synthétiques, Cedar et Marin, en plus des mises à jour apportées aux voix existantes.

Finalement, pour les utilisateurs de l'Union européenne (UE) et les entreprises soucieuses de la confidentialité, les données peuvent être stockées au sein de l'UE selon des règles de conformité plus strictes. Les outils mis à jour sont désormais disponibles via le Playground et la documentation officielle de l'API.

Présentation de gpt-realtime

Le nouveau modèle de synthèse vocale, gpt-realtime, est le modèle vocal d'OpenAI le plus avancé et le mieux adapté à la production. Il a été formé en étroite collaboration avec les clients afin d'exceller dans des tâches concrètes telles que le service client, l'assistance personnelle et l'éducation, en l'adaptant à la manière dont les développeurs créent et déploient des agents vocaux. Le modèle présente notamment des améliorations en termes de qualité audio, d'intelligence, de suivi des instructions et d'appel de fonctions.

Qualité audio

Une conversation au son naturel est essentielle pour déployer des agents vocaux dans le monde réel. Les modèles doivent parler avec l'intonation, l'émotion et le rythme d'un être humain afin de créer une expérience agréable et d'encourager une conversation continue avec les utilisateurs. OpenAI a formé gpt-realtime pour produire un discours de meilleure qualité, plus naturel et capable de suivre des instructions précises, telles que « parler rapidement et de manière professionnelle » ou « parler avec empathie et un accent français ».

La société a également lancé deux nouvelles voix dans l'API, Marin et Cedar, qui apportent des améliorations significatives en matière de naturel de la voix. Ces améliorations viennent s'ajouter aux mises à jour des huit voix existantes.

Intelligence et compréhension

Selon OpenAI, gpt-realtime fait preuve d'une intelligence supérieure et est capable de comprendre les enregistrements audio originaux avec une plus grande précision. Le modèle peut capter les indices non verbaux (comme les rires), changer de langue au milieu d'une phrase et adapter son ton (« vif et professionnel » ou « aimable et empathique »).

D'après les évaluations internes, le modèle affiche des performances plus précises dans la détection de séquences alphanumériques (telles que les numéros de téléphone, les numéros d'identification des véhicules, etc.) dans d'autres langues, notamment l'espagnol, le chinois, le japonais et le français. Sur l'évaluation Big Bench Audio mesurant les capacités de raisonnement, gpt-realtime a obtenu un score de précision de 82,8 %, surpassant le modèle précédent de décembre 2024, qui a obtenu un score de 65,6 %.

Suivi des instructions

Lorsqu'ils développent une application de synthèse vocale, les développeurs fournissent au modèle un ensemble d'instructions sur la manière de se comporter, notamment comment parler, quoi dire dans une situation donnée et quoi faire ou ne pas faire. OpenAI a concentré ses améliorations sur le respect de ces instructions, afin que même les instructions mineures aient plus d'importance pour le modèle. Sur le benchmark audio MultiChallenge mesurant la précision du suivi des instructions, gpt-realtime a obtenu un score de 30,5 %, ce qui représente une amélioration significative par rapport au modèle précédent de décembre 2024, qui avait obtenu un score de 20,6 %.

Appel de fonctions

Pour créer un agent vocal performant avec un modèle de synthèse vocale, un modèle doit être capable d'appeler les bons outils au bon moment afin d'être utile en production. OpenAI a amélioré l'appel de fonctions sur trois axes :

appel de fonctions pertinentes,
appel de fonctions au moment opportun,
appel de fonctions avec des arguments appropriés (ce qui se traduit par une plus grande précision).

Sur l'évaluation audio ComplexFuncBench mesurant les performances d'appel de fonction, gpt-realtime a obtenu un score de 66,5 %, tandis que le modèle précédent de décembre 2024 a obtenu un score de 49,7 %.

L'entreprise a également apporté des améliorations à l'appel de fonctions asynchrones. Les appels de fonctions de longue durée ne perturberont donc plus le déroulement d'une session car le modèle peut poursuivre une conversation fluide tout en attendant les résultats. Cette fonctionnalité est disponible en natif dans gpt-realtime, les développeurs n'ont donc pas besoin de mettre à jour leur code.

Nouveautés dans l'API Realtime

Prise en charge d'un serveur MCP distant

Les développeurs peuvent activer la prise en charge MCP dans une session API Realtime en transmettant l'URL d'un serveur MCP distant dans la configuration de la session. Une fois connectée, l'API gère automatiquement les appels d'outils de sorte qu'il n'est plus nécessaire de configurer manuellement les intégrations.

Cette configuration facilite l'extension de l'agent avec de nouvelles fonctionnalités : il suffit de diriger la session vers un autre serveur MCP pour que ces outils soient immédiatement disponibles.

Code :

Sélectionner tout

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
// POST /v1/realtime/client_secrets 
{ 
  "session": { 
    "type": "realtime", 
    "tools": [ 
      { 
        "type": "mcp", 
        "server_label": "stripe", 
        "server_url": "https://mcp.stripe.com", 
        "authorization": "{access_token}", 
        "require_approval": "never" 
      } 
    ] 
  } 
}

Saisie d'images

La prise en charge de la saisie d'images dans gpt-realtime permet aux utilisateurs d'ajouter des images, des photos et des captures d'écran à une session API Realtime, en plus des fichiers audio ou texte. Le modèle peut désormais ancrer la conversation dans ce que l'utilisateur voit réellement, ce qui leur permet de poser des questions telles que « Que voyez-vous ? » ou « Lisez le texte de cette capture d'écran ».

Au lieu de traiter une image comme un flux vidéo en direct, le système la traite davantage comme l'ajout d'une image à la conversation. L'application peut décider quelles images partager avec le modèle et à quel moment les partager. De cette façon, l'utilisateur garde le contrôle sur ce que le modèle voit et quand il répond.

Code :

Sélectionner tout

1
2
3
4
5
6
7
8
9
10
11
12
13
14
{ 
    "type": "conversation.item.create", 
    "previous_item_id": null, 
    "item": { 
        "type": "message", 
        "role": "user", 
        "content": [ 
            { 
                "type": "input_image", 
                "image_url": "data:image/{format(example: png)};base64,{some_base64_image_bytes}" 
            } 
        ] 
    } 
}

Fonctionnalités supplémentaires

OpenAI a ajouté plusieurs autres fonctionnalités afin de faciliter l'intégration de l'API Realtime et de la rendre plus flexible pour une utilisation en production.

[LIST][*] Prise en charge du protocole SIP (Session Initiation Protocol) : les développeurs peuvent connecter leurs applications au réseau téléphonique public, aux systèmes PBX, aux téléphones fixes et à d'autres terminaux SIP grâce à la prise en charge directe dans l'API Realtime. [*] Prompts réutilisables : les développeurs peuvent désormais enregistrer et réutiliser des prompts (composés de messages de développeurs, d'outils, de variables et d'exemples de messages utilisateur/assistant) dans toutes les sessions de l'API Realtime, comme dans l'API...[/*]

La fin de cet article est réservée aux abonnés. Soutenez le Club Developpez.com en prenant un abonnement pour que nous puissions continuer à vous proposer des publications.

Une erreur dans cette actualité ? Signalez-nous-la !

Votre nom : Votre e-mail :

Décrivez l'erreur que vous souhaitez porter à notre connaissance :

Identifiez-vous

Créer un compte

OpenAI présente gpt-realtime et des mises à jour de l'API Realtime pour les agents IA vocaux en production, notamment le support des serveurs MCP distants et des appels téléphoniques SIP, et la saisie d'image

Identifiant
Mot de passe

Mot de passe oublié ?