IdentifiantMot de passe
Loading...
Mot de passe oublié ?Je m'inscris ! (gratuit)

Vous êtes nouveau sur Developpez.com ? Créez votre compte ou connectez-vous afin de pouvoir participer !

Vous devez avoir un compte Developpez.com et être connecté pour pouvoir participer aux discussions.

Vous n'avez pas encore de compte Developpez.com ? Créez-en un en quelques instants, c'est entièrement gratuit !

Si vous disposez déjà d'un compte et qu'il est bien activé, connectez-vous à l'aide du formulaire ci-dessous.

Identifiez-vous
Identifiant
Mot de passe
Mot de passe oublié ?
Créer un compte

L'inscription est gratuite et ne vous prendra que quelques instants !

Je m'inscris !

OpenAI présente gpt-realtime et des mises à jour de l'API Realtime pour les agents IA vocaux en production, notamment le support des serveurs MCP distants et des appels téléphoniques SIP, et la saisie d'image

Le , par Anthony

5PARTAGES

4  0 
OpenAI présente gpt-realtime et des mises à jour de l'API Realtime pour les agents IA vocaux en production, notamment le support des serveurs MCP distants et des appels téléphoniques SIP, et la saisie d'image

OpenAI a lancé gpt-realtime, son modèle d'intelligence artificielle (IA) de synthèse vocale le plus avancé à ce jour, parallèlement à la mise à disponibilité générale de l'API Realtime. Cette mise à jour introduit des fonctionnalités telles que la saisie d'image, la prise en charge des serveurs MCP distants et des appels téléphoniques via le protocole SIP (Session Initiation Protocol), permettant ainsi la mise en place d'agents IA vocaux prêts pour une utilisation en production.

Cette récente initiative s'appuie sur des mises à jour précédentes qui ont permis à ChatGPT de voir, entendre et parler, élargissant ainsi son rôle au-delà des interactions textuelles. Ces capacités ont rapproché le système des assistants numériques grand public tels que Siri d'Apple, mais ont également suscité un débat sur la sécurité des données et la confidentialité des utilisateurs.

À partir de ce 28 août 2025, l'API Realtime d'OpenAI est désormais disponible après son lancement initial en octobre 2024, apportant ce que l'entreprise qualifie de son meilleur modèle d'IA vocale à ce jour : gpt-realtime. Ce système de synthèse vocale traite et génère directement l'audio sans conversion en texte, offrant ainsi des interactions plus rapides et plus naturelles. Il peut interpréter les signaux non verbaux, prend en charge les appels de fonction, change de langue en cours de phrase, ajuste le ton ou l'accent et génère des paroles avec des inflexions émotionnelles.

Les développeurs bénéficient également d'options d'intégration améliorées, notamment la prise en charge du protocole SIP (Session Initiation Protocol) pour permettre les appels téléphoniques et des serveurs MCP (Model Context Protocol) distants pour connecter des outils et services externes.


Parmi les fonctionnalités supplémentaires, on peut citer les prompts réutilisables, les limites de jetons et les contrôles de réduction de session pour gérer les coûts. La prise en charge de la saisie d'images permet en outre de traiter des captures d'écran ou des photos pour la lecture de texte ou les requêtes basées sur le contenu, avec des autorisations configurables par les développeurs. OpenAI a également ajouté deux nouvelles voix synthétiques, Cedar et Marin, en plus des mises à jour apportées aux voix existantes.

Finalement, pour les utilisateurs de l'Union européenne (UE) et les entreprises soucieuses de la confidentialité, les données peuvent être stockées au sein de l'UE selon des règles de conformité plus strictes. Les outils mis à jour sont désormais disponibles via le Playground et la documentation officielle de l'API.

Présentation de gpt-realtime

Le nouveau modèle de synthèse vocale, gpt-realtime, est le modèle vocal d'OpenAI le plus avancé et le mieux adapté à la production. Il a été formé en étroite collaboration avec les clients afin d'exceller dans des tâches concrètes telles que le service client, l'assistance personnelle et l'éducation, en l'adaptant à la manière dont les développeurs créent et déploient des agents vocaux. Le modèle présente notamment des améliorations en termes de qualité audio, d'intelligence, de suivi des instructions et d'appel de fonctions.

Qualité audio

Une conversation au son naturel est essentielle pour déployer des agents vocaux dans le monde réel. Les modèles doivent parler avec l'intonation, l'émotion et le rythme d'un être humain afin de créer une expérience agréable et d'encourager une conversation continue avec les utilisateurs. OpenAI a formé gpt-realtime pour produire un discours de meilleure qualité, plus naturel et capable de suivre des instructions précises, telles que « parler rapidement et de manière professionnelle » ou « parler avec empathie et un accent français ».

La société a également lancé deux nouvelles voix dans l'API, Marin et Cedar, qui apportent des améliorations significatives en matière de naturel de la voix. Ces améliorations viennent s'ajouter aux mises à jour des huit voix existantes.

Intelligence et compréhension

Selon OpenAI, gpt-realtime fait preuve d'une intelligence supérieure et est capable de comprendre les enregistrements audio originaux avec une plus grande précision. Le modèle peut capter les indices non verbaux (comme les rires), changer de langue au milieu d'une phrase et adapter son ton (« vif et professionnel » ou « aimable et empathique »).

D'après les évaluations internes, le modèle affiche des performances plus précises dans la détection de séquences alphanumériques (telles que les numéros de téléphone, les numéros d'identification des véhicules, etc.) dans d'autres langues, notamment l'espagnol, le chinois, le japonais et le français. Sur l'évaluation Big Bench Audio mesurant les capacités de raisonnement, gpt-realtime a obtenu un score de précision de 82,8 %, surpassant le modèle précédent de décembre 2024, qui a obtenu un score de 65,6 %.


Suivi des instructions

Lorsqu'ils développent une application de synthèse vocale, les développeurs fournissent au modèle un ensemble d'instructions sur la manière de se comporter, notamment comment parler, quoi dire dans une situation donnée et quoi faire ou ne pas faire. OpenAI a concentré ses améliorations sur le respect de ces instructions, afin que même les instructions mineures aient plus d'importance pour le modèle. Sur le benchmark audio MultiChallenge mesurant la précision du suivi des instructions, gpt-realtime a obtenu un score de 30,5 %, ce qui représente une amélioration significative par rapport au modèle précédent de décembre 2024, qui avait obtenu un score de 20,6 %.


Appel de fonctions

Pour créer un agent vocal performant avec un modèle de synthèse vocale, un modèle doit être capable d'appeler les bons outils au bon moment afin d'être utile en production. OpenAI a amélioré l'appel de fonctions sur trois axes :

  • appel de fonctions pertinentes,
  • appel de fonctions au moment opportun,
  • appel de fonctions avec des arguments appropriés (ce qui se traduit par une plus grande précision).

Sur l'évaluation audio ComplexFuncBench mesurant les performances d'appel de fonction, gpt-realtime a obtenu un score de 66,5 %, tandis que le modèle précédent de décembre 2024 a obtenu un score de 49,7 %.

L'entreprise a également apporté des améliorations à l'appel de fonctions asynchrones. Les appels de fonctions de longue durée ne perturberont donc plus le déroulement d'une session car le modèle peut poursuivre une conversation fluide tout en attendant les résultats. Cette fonctionnalité est disponible en natif dans gpt-realtime, les développeurs n'ont donc pas besoin de mettre à jour leur code.


Nouveautés dans l'API Realtime

Prise en charge d'un serveur MCP distant

Les développeurs peuvent activer la prise en charge MCP dans une session API Realtime en transmettant l'URL d'un serveur MCP distant dans la configuration de la session. Une fois connectée, l'API gère automatiquement les appels d'outils de sorte qu'il n'est plus nécessaire de configurer manuellement les intégrations.

Cette configuration facilite l'extension de l'agent avec de nouvelles fonctionnalités : il suffit de diriger la session vers un autre serveur MCP pour que ces outils soient immédiatement disponibles.

Code : Sélectionner tout
1
2
3
4
5
6
7
// POST /v1/realtime/client_secrets
{
  "session": {
    "type": "realtime",
    "tools": [
      {
        "type": "mcp",
        "server_label": "stripe",
        "server_url": "https://mcp.stripe.com",
        "authorization": "{access_token}",
        "require_approval": "never"
      }
    ]
  }
}

Saisie d'images

La prise en charge de la saisie d'images dans gpt-realtime permet aux utilisateurs d'ajouter des images, des photos et des captures d'écran à une session API Realtime, en plus des fichiers audio ou texte. Le modèle peut désormais ancrer la conversation dans ce que l'utilisateur voit réellement, ce qui leur permet de poser des questions telles que « Que voyez-vous ? » ou « Lisez le texte de cette capture d'écran ».

Au lieu de traiter une image comme un flux vidéo en direct, le système la traite davantage comme l'ajout d'une image à la conversation. L'application peut décider quelles images partager avec le modèle et à quel moment les partager. De cette façon, l'utilisateur garde le contrôle sur ce que le modèle voit et quand il répond.

Code : Sélectionner tout
1
2
3
4
5
6
7
8
9
{
    "type": "conversation.item.create",
    "previous_item_id": null,
    "item": {
        "type": "message",
        "role": "user",
        "content": [
            {
                "type": "input_image",
                "image_url": "data:image/{format(example: png)};base64,{some_base64_image_bytes}"
            }
        ]
    }
}

Fonctionnalités supplémentaires

OpenAI a ajouté plusieurs autres fonctionnalités afin de faciliter l'intégration de l'API Realtime et de la rendre plus flexible pour une utilisation en production.

  • Prise en charge du protocole SIP (Session Initiation Protocol) : les développeurs peuvent connecter leurs applications au réseau téléphonique public, aux systèmes PBX, aux téléphones fixes et à d'autres terminaux SIP grâce à la prise en charge directe dans l'API Realtime.
  • Prompts réutilisables : les développeurs peuvent désormais enregistrer et réutiliser des prompts (composés de messages de développeurs, d'outils, de variables et d'exemples de messages utilisateur/assistant) dans toutes les sessions de l'API Realtime, comme dans l'API Responses.

Sécurité et confidentialité

L'API Realtime intègre plusieurs niveaux de protection et de mesures d'atténuation afin d'empêcher toute utilisation abusive. OpenAI a utilisé des classificateurs actifs sur les sessions API Realtime, ce qui signifie que certaines conversations peuvent être interrompues si elles sont détectées comme enfreignant les directives relatives aux contenus préjudiciables. Les développeurs peuvent également ajouter facilement leurs propres mesures de sécurité supplémentaires à l'aide du SDK Agents⁠.

Les politiques d'utilisation d'OpenAI interdisent la réutilisation ou la distribution des résultats de ses services à des fins de spam, de tromperie ou à d'autres fins préjudiciables. Les développeurs doivent également indiquer clairement aux utilisateurs finaux lorsqu'ils interagissent avec l'IA, sauf si cela ressort déjà clairement du contexte. L'API Realtime utilise par ailleurs des voix prédéfinies pour empêcher les acteurs malveillants d'usurper l'identité d'autres personnes.

De plus, l'API Realtime prend entièrement en charge la résidence des données dans l'UE pour les applications basées dans l'UE et est couverte par les engagements en matière de confidentialité d'entreprise d'OpenAI.

Tarifs et disponibilité

L'API Realtime et le nouveau modèle gpt-realtime sont accessibles à tous les développeurs à compter du 28 août 2025. OpenAI a réduit les prix de gpt-realtime de 20 % par rapport à gpt-4o-realtime-preview, soit 32 $ pour 1 million de jetons d'entrée audio (0,40 $ pour les jetons d'entrée mis en cache) et 64 $ pour 1 million de jetons de sortie audio.

La société a également ajouté un contrôle précis du contexte de conversation afin de permettre aux développeurs de définir des limites de jetons intelligentes et de tronquer plusieurs tours à la fois, ce qui réduit considérablement le coût des sessions longues.

Alors que ces nouvelles capacités intègrent davantage les agents IA dans la vie quotidienne des utilisateurs, les questions de surveillance et de responsabilité se posent avec plus d'acuité. OpenAI a déjà confirmé que ChatGPT pouvait scanner les conversations et alerter la police si elle estime qu'il existe un « risque immédiat de violence physique envers autrui ». Bien que cette mesure soit destinée à assurer la sécurité, le processus reste opaque, sans grande clarté sur la manière dont ces menaces sont définies.

Source : OpenAI

Et vous ?

Quel est votre avis sur le sujet ?
Trouvez-vous cette initiative d'OpenAI crédible ou pertinente ?

Voir aussi :

Le mode vocal avancé avec vision de ChatGPT est enfin disponible : vous pouvez maintenant utiliser le chatbot par le biais de la saisie vocale, d'images et de vidéos, et même partager des écrans

Le mode Vocal Avancé de ChatGPT déployé auprès des utilisateurs payants : OpenAI affirme que cette version réagit à vos émotions et au ton de votre voix, mais la fonctionnalité est bloquée en UE et en UK

OpenAI développe un assistant vocal d'IA, se positionnant comme un concurrant direct de Google et d'Apple. La technologie est capable de « voir, d'entendre et de parler », elle peut reconnaître des objets
Vous avez lu gratuitement 102 articles depuis plus d'un an.
Soutenez le club developpez.com en souscrivant un abonnement pour que nous puissions continuer à vous proposer des publications.

Une erreur dans cette actualité ? Signalez-nous-la !