Le mode Vocal Avancé de ChatGPT déployé auprès des utilisateurs payants : OpenAI affirme que cette version réagit à vos émotions et au ton de votre voix

Mais la fonctionnalité est bloquée en UE et en UK

Le 25 septembre 2024 à 15:51, par Stéphane le calme

65PARTAGES

OpenAI a récemment annoncé le déploiement de son nouveau mode vocal avancé pour ChatGPT, une fonctionnalité très attendue qui promet de révolutionner l’interaction avec les intelligences artificielles. Le mode vocal avancé de ChatGPT permet aux utilisateurs de converser avec l’IA de manière plus naturelle et fluide. Contrairement aux versions précédentes, cette nouvelle fonctionnalité permet d’interrompre l’IA en cours de réponse et de détecter les émotions dans la voix de l’utilisateur pour ajuster ses réponses en conséquence. En outre, OpenAI a introduit cinq nouvelles voix en plus des voix existantes : Arbor, Maple, Sol, Spruce et Vale. Disponible initialement pour les abonnés des plans Plus et Team aux États-Unis, cette mise à jour marque une étape importante dans l’évolution des assistants vocaux.

Quatre mois après sa première présentation au public, OpenAI propose enfin sa nouvelle interface vocale conversationnelle pour ChatGPT (ChatGPT Advanced Voice Mode) aux utilisateurs au-delà de son petit groupe de test initial et de sa liste d'attente. Tous les abonnés payants aux plans ChatGPT Plus et Team d'OpenAI auront accès au nouveau ChatGPT Advanced Voice Mode, bien que l'accès soit déployé progressivement au cours des prochains jours, selon OpenAI. Il sera d'abord disponible aux États-Unis.

Pour mémoire, fin juillet, OpenAI a commencé à déployer une version alpha de son nouveau mode vocal avancé auprès d'un petit groupe d'abonnés à ChatGPT Plus. Cette fonctionnalité, qu'OpenAI a présentée en mai avec le lancement de GPT-4o, vise à rendre les conversations avec l'IA plus naturelles et plus réactives. En mai, la fonction a suscité des critiques concernant l'expressivité émotionnelle simulée et a provoqué un conflit public avec l'actrice Scarlett Johansson, accusée par OpenAI d'avoir copié sa voix. Malgré cela, les premiers tests de la nouvelle fonctionnalité partagés par les utilisateurs sur les médias sociaux ont été largement enthousiastes.

Qu'est-ce qu'il peut faire ?

Bien que ChatGPT offre actuellement un mode vocal standard aux utilisateurs payants, ses interactions peuvent être maladroites. Dans l'application mobile, par exemple, vous ne pouvez pas interrompre les réponses souvent longues du modèle avec votre voix, mais seulement en tapant sur l'écran. La nouvelle version corrige ce problème et promet également de modifier ses réponses en fonction de l'émotion qu'elle perçoit de votre voix. Comme pour les autres versions de ChatGPT, les utilisateurs peuvent personnaliser le mode vocal en demandant au modèle de se souvenir de faits les concernant. Le nouveau mode a également amélioré la prononciation des mots dans les langues autres que l'anglais.

L'investisseur en IA Allie Miller a publié une démo de l'outil en août, qui mettait en évidence un grand nombre des mêmes points forts que les vidéos de présentation d'OpenAI : Le modèle est rapide et capable de modifier son accent, son ton et son contenu en fonction de vos besoins.

I’m testing the new @OpenAI Advanced Voice Mode and I just snorted with laughter.

In a good way.

Watch the whole thing ⬇️ pic.twitter.com/vSOMzXdwZo
— Allie K. Miller (@alliekmiller) August 2, 2024

Qui peut y accéder et quand ?

Pour l'instant, OpenAI propose l'accès à l'Advanced Voice Mode aux utilisateurs Plus, qui paient 20 $ par mois pour une version premium, et aux utilisateurs Team, qui paient 30 $ par mois et ont des limites de messages plus élevées. Le prochain groupe à bénéficier de l'accès sera celui des utilisateurs des catégories Enterprise et Edu. Un porte-parole d'OpenAI indique que l'entreprise « offrira progressivement l'accès à tous les utilisateurs des catégories Plus et Team, puis aux catégories Enterprise et Edu à partir de la semaine prochaine ». L'entreprise ne s'est pas engagée sur une date limite ferme pour l'accès de tous les utilisateurs de ces catégories. Un message dans l'application ChatGPT indique que tous les utilisateurs Plus auront accès à l'application d'ici « la fin de l'automne ».

Il existe des limitations géographiques. La nouvelle fonctionnalité n'est pas encore disponible dans l'UE, au Royaume-Uni, en Suisse, en Islande, en Norvège ou au Liechtenstein.

Il n'est pas prévu dans l'immédiat de mettre le mode vocal avancé à la disposition des utilisateurs gratuits. (Le mode standard reste disponible pour tous les utilisateurs payants).

Personnalisation et mémoire

OpenAI a ajouté la possibilité de stocker des « instructions personnalisées » pour l'assistant vocal et la « mémoire » des comportements que l'utilisateur souhaite qu'il adopte, à l'instar des fonctionnalités déployées plus tôt cette année pour la version texte de ChatGPT.

Cinq nouvelles voix au style différent sont également disponibles : Arbor, Maple, Sol, Spruce et Vale, qui viennent s'ajouter aux quatre voix précédentes, Breeze, Juniper, Cove et Ember, auxquelles les utilisateurs pouvaient s'adresser en utilisant l'ancien mode vocal, moins avancé, de ChatGPT.

Meet the five new voices. pic.twitter.com/F9BOUaJqG1
— OpenAI (@OpenAI) September 24, 2024

Cela signifie que les utilisateurs de ChatGPT, les particuliers pour Plus et les petites équipes d'entreprise pour Teams, peuvent utiliser le chatbot en lui parlant au lieu de taper une invite. Les utilisateurs sauront qu'ils sont entrés dans l'assistant vocal avancé grâce à une fenêtre contextuelle lorsqu'ils accèdent au mode vocal de l'application.

« Depuis l'alpha, nous avons utilisé les connaissances acquises pour améliorer les accents dans les langues étrangères les plus populaires de ChatGPT, ainsi que la vitesse et la fluidité de la conversation », a déclaré l'entreprise. « Vous remarquerez également un nouveau design pour le mode vocal avancé avec une sphère bleue animée ».

À l'origine, le mode vocal comportait quatre voix (Breeze, Juniper, Cove et Ember), mais la nouvelle mise à jour apportera cinq nouvelles voix appelées Arbor, Maple, Sol, Spruce et Vale. OpenAI n'a pas fourni d'échantillon de voix pour les nouvelles voix.

Ces mises à jour ne sont disponibles que sur le modèle GPT-4o, et non sur le modèle de prévisualisation récemment sorti, o1. Les utilisateurs de ChatGPT peuvent également utiliser des instructions personnalisées et des mémoires pour s'assurer que le mode vocal est personnalisé et répond en fonction de leurs préférences pour toutes les conversations.

Advanced Voice is rolling out to all Plus and Team users in the ChatGPT app over the course of the week.

While you’ve been patiently waiting, we’ve added Custom Instructions, Memory, five new voices, and improved accents.

It can also say “Sorry I’m late” in over 50 languages. pic.twitter.com/APOqqhXtDg
— OpenAI (@OpenAI) September 24, 2024

La course au chat vocal

Depuis l'essor des assistants vocaux comme Siri d'Apple et Alexa d'Amazon, les développeurs ont voulu rendre l'expérience de chat génératif plus humaine.

ChatGPT a intégré des voix avant même le lancement du mode vocal, avec sa fonction de lecture à haute voix. Toutefois, l'idée du mode vocal avancé est d'offrir aux utilisateurs une expérience de conversation plus humaine, un concept que d'autres développeurs d'IA souhaitent également imiter.

Hume AI, une startup créée par Alan Cowen, ancien Deepminder de Google, a publié la deuxième version de son interface vocale Empathic Voice Interface, un assistant vocal à l'apparence humaine qui détecte les émotions en se basant sur le modèle de la voix d'une personne et qui peut être utilisé par les développeurs par le biais d'une API propriétaire.

La société française Kyutai a lancé en juillet Moshi, un assistant vocal à code source ouvert.

Google a également ajouté des voix à son chatbot Gemini par le biais de Gemini Live, dans le but de rattraper OpenAI. Reuters a rapporté que Meta développe également des voix qui ressemblent à des acteurs populaires pour les ajouter à sa plateforme Meta AI.

OpenAI annonce qu'elle met les voix de l'IA à la disposition d'un plus grand nombre d'utilisateurs sur ses plates-formes, mettant ainsi la technologie à la portée d'un plus grand nombre de personnes que les autres entreprises.

Une annonce qui est faite après des retards et des controverses

Toutefois, l'idée de voix IA conversant en temps réel et réagissant avec l'émotion appropriée n'a pas toujours été bien accueillie.

La tentative d'OpenAI d'ajouter des voix à ChatGPT a été controversée dès le départ. Lors de l'événement organisé en mai pour annoncer GPT-4o et le mode vocal, les gens ont remarqué des similitudes entre l'une des voix, Sky, et celle de l'actrice Scarlett Johanssen.

Le fait que le PDG d'OpenAI, Sam Altman, ait publié le mot « her » sur les réseaux sociaux, en référence au film dans lequel Scarlett Johanssen incarne une assistante IA, n'a pas facilité les choses. La controverse a suscité des inquiétudes quant au fait que les développeurs d'IA imitent les voix de personnes connues.

L'entreprise a nié avoir fait référence à Johansson et a insisté sur le fait qu'elle n'avait pas l'intention d'engager des acteurs dont la voix ressemble à celle d'autres personnes. Scarlett Johansson a refusé la proposition d'OpenAI d'utiliser sa voix pour l'intelligence artificielle mais l'entreprise s'en est quand même servi. « Lorsque j'ai appris pour la démo, j'ai été choquée, irritée à l'idée que Sam Altman puisse utiliser une voix si similaire à la mienne que mes amis les plus proches et les médias n'ont pas pu faire la différence. J'ai été obligée d'engager un conseiller juridique qui a écrit deux lettres à Sam Altman pour demander à OpenAI d'expliquer en détail comment elle avait créé la voix de Sky », [URL="https://intelligence-artificielle.developpez...

La fin de cet article est réservée aux abonnés. Soutenez le Club Developpez.com en prenant un abonnement pour que nous puissions continuer à vous proposer des publications.

Une erreur dans cette actualité ? Signalez-nous-la !

Votre nom : Votre e-mail :

Décrivez l'erreur que vous souhaitez porter à notre connaissance :

Identifiez-vous

Créer un compte

Le mode Vocal Avancé de ChatGPT déployé auprès des utilisateurs payants : OpenAI affirme que cette version réagit à vos émotions et au ton de votre voix

Mais la fonctionnalité est bloquée en UE et en UK

Identifiant
Mot de passe

Mot de passe oublié ?

Identifiez-vous

Créer un compte

Le mode Vocal Avancé de ChatGPT déployé auprès des utilisateurs payants : OpenAI affirme que cette version réagit à vos émotions et au ton de votre voix Mais la fonctionnalité est bloquée en UE et en UK

Le mode Vocal Avancé de ChatGPT déployé auprès des utilisateurs payants : OpenAI affirme que cette version réagit à vos émotions et au ton de votre voix

Mais la fonctionnalité est bloquée en UE et en UK