OpenAI lance une nouvelle génération de modèles vocaux en temps réel dans son API pour les développeurs, capables de raisonner, de traduire et de transcrire les propos des utilisateurs à mesure qu'ils parlentOpenAI a lancé trois nouveaux modèles vocaux en temps réel dans son API Realtime à destination des développeurs. Ce lancement comprend : GPT-Realtime-2 pour les interactions vocales réalistes, GPT-Realtime-Translate qui prend en charge plus de 70 langues et GPT-Realtime-Whisper pour la transcription instantanée de la parole en texte. Ces modèles permettent de répondre à divers besoins dans des domaines tels que l'éducation, les médias et le service client. Des mécanismes de sécurité ont également été mises en place pour prévenir le spam, la fraude et les abus dans les applications en temps réel.
OpenAI Global, LLC est un organisme américain de recherche en intelligence artificielle (IA) composé d'une société à but lucratif d'intérêt public (PBC) et d'une fondation à but non lucratif, dont le siège social est situé à San Francisco. OpenAI a développé la famille de grands modèles linguistiques GPT (Generative Pre-trained Transformer), la série DALL-E de modèles de conversion texte-image et la série Sora de modèles de conversion texte-vidéo, qui ont influencé la recherche dans le secteur et les applications commerciales. Le lancement de ChatGPT en novembre 2022 est considéré comme ayant suscité un intérêt généralisé pour l'IA générative.
OpenAI a enrichi son API de trois nouveaux modèles d'intelligence vocale destinés aux applications vocales en temps réel. Cette mise à jour comprend GPT-Realtime-2, un modèle conversationnel conçu pour des interactions vocales réalistes, doté d'une capacité de raisonnement de niveau GPT-5, ce qui lui permet de gérer des conversations en direct plus complexes que les versions précédentes.
L'entreprise a également lancé GPT-Realtime-Translate, un outil de traduction orale en temps réel prenant en charge plus de 70 langues sources et 13 langues cibles. Dans la foulée, GPT-Realtime-Whisper permet la transcription en direct de la parole en texte, offrant ainsi aux applications la possibilité de capturer les interactions orales au fur et à mesure qu'elles se produisent.
GPT-Realtime-2 est facturé à l'utilisation de jetons, tandis que la traduction et la transcription sont facturées à la minute. Ces trois modèles sont disponibles via l'API Realtime d'OpenAI et peuvent répondre à des besoins dans des domaines tels que le service client, l'éducation, les médias, l'événementiel et les plateformes de créateurs.
La voix comme interface entre les personnes et les produits
A mesure que la commande vocale s'impose comme un moyen plus naturel d'utiliser les logiciels, OpenAI a constaté que les développeurs s'appuient sur trois nouvelles tendances en matière d'IA vocale :
- De la parole à l'action : les utilisateurs peuvent décrire ce dont ils ont besoin, et le système est capable d'analyser la demande, d'utiliser des outils et d'accomplir la tâche. Par exemple, Zillow développe actuellement un assistant capable d'écouter, d'analyser et de répondre à des demandes telles que : « Trouve-moi des maisons correspondant à mon budget, évite les rues très fréquentées et organise une visite pour samedi. »
- Les systèmes de synthèse vocale, grâce auxquels un logiciel peut transformer des informations contextuelles en instructions vocales en temps réel. Par exemple, une application de voyage pourrait informer de manière proactive un voyageur : « Votre vol à l'arrivée est retardé, mais vous pourrez tout de même prendre votre correspondance. J'ai trouvé la nouvelle porte d'embarquement, tracé l'itinéraire le plus rapide à travers le terminal, et votre bagage devrait toujours être transféré. »
- De voix à voix : l'IA permet de poursuivre les conversations en direct, quel que soit la langue, la tâche ou le contexte. Par exemple, Deutsche Telekom développe actuellement des services d'assistance vocale permettant aux clients de s'exprimer dans la langue dans laquelle ils se sentent le plus à l'aise, tandis que le modèle traduit la conversation en temps réel.
Selon OpenAI, ces modèles peuvent également fonctionner en synergie. Priceline travaille à la création d'un avenir où les voyageurs pourront gérer l'intégralité de leur voyage à l'aide de la voix : rechercher des vols et des hôtels de manière conversationnelle, gérer les changements (comme modifier une réservation d'hôtel suite à un retard de vol) ou obtenir des informations en temps réel sur les temps d'attente aux contrôles de sécurité, et traduire les conversations une fois arrivés à destination.
Voix en temps réel : aider les modèles vocaux à raisonner et à agir
GPT-Realtime-2 est conçu pour les interactions vocales en direct : le modèle assure la fluidité de la conversation tout en analysant une requête, en faisant appel à des outils, en gérant les corrections ou les interruptions, et en répondant de manière adaptée au contexte.
- Préambules : les développeurs peuvent ajouter de courtes phrases avant la réponse principale, telles que « Je vais vérifier cela » ou « Un instant, je me renseigne », afin que les utilisateurs sachent que l'agent traite leur demande.
- Appels simultanés vers des outils et transparence des outils : le modèle peut faire appel à plusieurs outils à la fois et signaler ces actions à voix haute à l'aide de phrases telles que « je consulte votre agenda » ou « je vérifie cela tout de suite », ce qui aide les agents à rester réactifs tout en accomplissant leurs tâches.
- Meilleure gestion des situations d'échec : le modèle peut gérer les situations d'échec de manière plus fluide en disant par exemple « je rencontre un problème pour le moment », au lieu d'échouer sans rien dire ou d'interrompre la conversation.
- Contexte plus étendu pour les flux de travail autonomes : OpenAI a étendu la fenêtre de contexte de 32 Ko à 128 Ko afin de permettre des sessions plus longues et plus cohérentes, ainsi que des enchaînements de tâches plus complexes.
- Meilleure compréhension du domaine : le modèle mémorise mieux la terminologie spécialisée, les noms propres, les termes médicaux et tout autre vocabulaire pertinent dans les environnements de production.
- Le modèle est capable de mieux adapter son ton : il parle d'une voix calme lorsqu'il résout un problème, fait preuve d'empathie lorsqu'un utilisateur est frustré, ou adopte un ton enjoué lorsqu'il confirme la réussite d'une action.
- Niveau de raisonnement ajustable : les développeurs peuvent désormais choisir entre les niveaux de raisonnement « minimal », « faible », « moyen », « élevé » et « très élevé », le niveau « faible » étant sélectionné par défaut. Cela permet de trouver un équilibre entre une latence réduite pour les interactions simples et un raisonnement plus approfondi pour les requêtes complexes.
Selon OpenAI, ces progrès se reflètent dans les évaluations audio qui correspondent étroitement aux agents vocaux en production : GPT-Realtime-2 (high) obtient un score supérieur de 15,2 % à celui de GPT-Realtime-1.5 sur Big Bench Audio pour l'intelligence audio. GPT-Realtime-2 (xhigh) obtient un score supérieur de 13,8 % à l'Audio MultiChallenge en matière de suivi des instructions, s'améliorant par rapport à GPT-Realtime-1.5 et faisant preuve d'un raisonnement, d'une gestion du contexte et d'un contrôle plus solides dans les conversations en direct.
Traduction en temps réel : créez des expériences vocales multilingues en direct
GPT-Realtime-Translate aide les développeurs à créer des expériences vocales multilingues en direct, dans lesquelles chaque participant peut s'exprimer dans la langue de son choix, écouter la conversation traduite en temps réel et consulter les transcriptions en temps réel. Il prend en charge plus de 70 langues d'entrée et 13 langues de sortie, ce qui en fait un outil précieux pour le service client, les ventes internationales, l'éducation, les événements, les médias et les plateformes de créateurs s'adressant à un public mondial.
Pour les développeurs, la traduction en temps réel doit préserver le sens tout en suivant le rythme de l'orateur, même lorsque les interlocuteurs s'expriment naturellement, changent de sujet ou utilisent des prononciations régionales et un vocabulaire spécifique à un domaine. Par exemple, Deutsche Telekom teste actuellement ce modèle pour des interactions vocales multilingues, où une latence réduite et une plus grande fluidité peuvent rendre les conversations multilingues plus naturelles.
Dans la vidéo ci-dessous, Vimeo montre comment GPT-Realtime-Translate permet de traduire en direct une vidéo de présentation de produit pendant sa diffusion, afin que les clients du monde entier puissent suivre les mises à jour dans la langue de leur choix sans avoir à attendre la sortie d'une version spécialement produite.
Transcription en temps réel : créer des expériences de transcription à faible latence
GPT-Realtime-Whisper est un nouveau modèle de transcription en continu conçu pour la conversion de la parole en texte à faible latence. Il transcrit l'audio au fur et à mesure que les gens parlent, ce qui permet aux applications live d'être plus rapides, plus réactives et plus naturelles, qu'il s'agisse de sous-titres qui s'affichent instantanément ou de notes de réunion qui suivent le rythme de la conversation.
Ce modèle permet d'exploiter la parole en direct au sein des processus métier, au fur et à mesure qu'elle se produit. Les équipes peuvent ainsi générer des sous-titres pour les réunions, les cours, les émissions et les événements ; créer des notes et des résumés pendant que les conversations sont encore en cours ; développer des assistants vocaux capables de comprendre les utilisateurs en continu ; et mettre en place des processus de suivi plus rapides pour le service client, le secteur de la santé, la vente, le recrutement et d'autres interactions vocales à fort volume.
Sécurité
OpenAI a également souligné les risques potentiels liés au spam, à la fraude et aux abus en ligne, et a ajouté des mécanismes de sécurité capables d'interrompre les conversations si un contenu préjudiciable est détecté.
L'API Realtime intègre plusieurs niveaux de mesures de sécurité et de prévention afin d'éviter toute utilisation abusive. L'entreprise utilise des classificateurs actifs sur les sessions de l'API Realtime, ce qui signifie que certaines conversations peuvent être interrompues si elles sont détectées comme enfreignant les directives d'OpenAI relatives aux contenus préjudiciables. Les développeurs peuvent également ajouter facilement leurs propres mesures de sécurité supplémentaires à l'aide du SDK Agents.
OpenAI note que ses conditions d'utilisation interdisent la réutilisation ou la diffusion des résultats générés par ses services à des fins de spam, de tromperie ou à toute autre fin préjudiciable. Les développeurs doivent indiquer clairement aux utilisateurs finaux lorsqu'ils interagissent avec une IA, à moins que cela ne résulte déjà clairement du contexte.
L'API Realtime prend entièrement en charge la résidence des données dans l'UE pour les applications basées dans l'UE et est couverte par les engagements d'OpenAI en matière de confidentialité pour les entreprises.
Tarifs et disponibilité
GPT-Realtime-2, GPT-Realtime-Translate et GPT-Realtime-Whisper sont disponibles dans l'API Realtime. GPT-Realtime-2 est proposé au prix de 32 dollars pour 1 million de jetons d'entrée audio (0,40 dollar pour les jetons d'entrée mis en cache) et de 64 dollars pour 1 million de jetons de sortie audio. GPT-Realtime-Translate est proposé au prix de 0,034 dollar par minute et GPT-Realtime-Whisper est proposé au prix de 0,017 dollar par minute.
Source : OpenAI
Et vous ?
Quel est votre avis sur le sujet ?
Trouvez-vous cette initiative d'OpenAI crédible ou pertinente ?Voir aussi :
OpenAI lance « Contact de confiance » dans ChatGPT, permettant de désigner une personne qui pourra être avertie si les modérateurs détectent des risques d'automutilation et de suicide
OpenAI déploie ChatGPT 5.5 Instant comme nouveau modèle par défaut pour tous les utilisateurs d'OpenAI et affirme que GPT-5.5 offre une faible latence et moins d'hallucinations
GPT-5.5 d'OpenAI rivalise avec Claude Mythos d'Anthropic en matière de capacités de cyberattaque : la cybermenace représentée par Mythos ne serait pas une avancée propre à un seul modèle
Vous avez lu gratuitement 3 256 articles depuis plus d'un an.
Soutenez le club developpez.com en souscrivant un abonnement pour que nous puissions continuer à vous proposer des publications.
Soutenez le club developpez.com en souscrivant un abonnement pour que nous puissions continuer à vous proposer des publications.