ChatGPT Advanced Voice Mode impressionne les testeurs par ses effets sonores et sa capacité à reprendre son souffle

Il corrige la prononciation de mots français, en donnant des indications sur l'inflexion

Le 2 août 2024 à 16:00, par Stéphane le calme

219PARTAGES

Le nouveau Advanced Voice Mode de ChatGPT, récemment déployé par OpenAI, a suscité l’enthousiasme des utilisateurs. Cette fonctionnalité permet des conversations en temps réel avec l’IA, avec la possibilité d’interrompre l’assistant en plein milieu de sa phrase. Mais ce qui a surpris beaucoup de gens, c’est la façon dont les voix simulent une respiration humaine.

Mardi, OpenAI a commencé à déployer une version alpha de son nouveau mode vocal avancé auprès d'un petit groupe d'abonnés à ChatGPT Plus. Cette fonctionnalité, qu'OpenAI a présentée en mai avec le lancement de GPT-4o, vise à rendre les conversations avec l'IA plus naturelles et plus réactives. En mai, la fonction a suscité des critiques concernant l'expressivité émotionnelle simulée et a provoqué un conflit public avec l'actrice Scarlett Johansson, accusée par OpenAI d'avoir copié sa voix. Malgré cela, les premiers tests de la nouvelle fonctionnalité partagés par les utilisateurs sur les médias sociaux ont été largement enthousiastes.

Dans les premiers tests rapportés par les utilisateurs qui y ont accès, le mode vocal avancé leur permet d'avoir des conversations en temps réel avec ChatGPT, y compris la possibilité d'interrompre l'IA au milieu d'une phrase presque instantanément. L'IA peut percevoir les signaux émotionnels de l'utilisateur et y répondre par le ton et l'élocution de la voix, et produire des effets sonores lorsqu'elle raconte des histoires.

Mais ce qui a pris beaucoup de gens au dépourvu, c'est la façon dont les voix simulent une respiration pendant qu'elles parlent.

« ChatGPT Advanced Voice Mode compte aussi vite que possible jusqu'à 10, puis jusqu'à 50 (ce qui m'a époustouflé : il s'est arrêté pour reprendre son souffle comme le ferait un humain) », a écrit Cristiano Giardina sur X.

[TWITTER]<blockquote class="twitter-tweet"><p lang="en" dir="ltr">ChatGPT Advanced Voice Mode counting as fast as it can to 10, then to 50 (this blew my mind - it stopped to catch its breath like a human would) <a href="https://t.co/oZMCPO5RPh">pic.twitter.com/oZMCPO5RPh</a></p>— Cristiano Giardina (@CrisGiardina) <a href="https://twitter.com/CrisGiardina/status/1818627205217272098?ref_src=twsrc%5Etfw">July 31, 2024</a></blockquote> <script async src="https://platform.twitter.com/widgets.js" charset="utf-8"></script> [/TWITTER]

Le mode vocal avancé simule des pauses respiratoires audibles parce qu'il a été entraîné à partir d'échantillons audio d'êtres humains qui présentaient la même caractéristique. Le modèle a appris à simuler des inspirations à des moments apparemment appropriés après avoir été exposé à des centaines de milliers, voire des millions, d'exemples de discours humains. Les grands modèles de langage (LLM) comme le GPT-4o sont de grands imitateurs, et cette compétence s'étend désormais au domaine audio.

Giardina a fait part de ses autres impressions sur le mode vocal avancé sur X, notamment en ce qui concerne les accents dans d'autres langues et les effets sonores.

« Il est très rapide, il n'y a pratiquement aucune latence entre le moment où vous arrêtez de parler et le moment où il répond », écrit-il. « Lorsque vous lui demandez de faire des bruits, c'est toujours la voix qui "exécute" les bruits (avec des résultats amusants). Il peut prendre des accents, mais lorsqu'il parle d'autres langues, il a toujours un accent américain » Dans la vidéo, ChatGPT joue le rôle d'un commentateur de match de football.

[TWITTER]<blockquote class="twitter-tweet"><p lang="en" dir="ltr">Some early impressions of the ChatGPT Advanced Voice Mode:<br>It’s very fast, there’s virtually no latency from when you stop speaking to when it responds.<br>When you ask it to make noises it always has the voice “perform” the noises (with funny results).<br>It can do accents, but when… <a href="https://t.co/vOA8qmqX06">pic.twitter.com/vOA8qmqX06</a></p>— Cristiano Giardina (@CrisGiardina) <a href="https://twitter.com/CrisGiardina/status/1818440139946758438?ref_src=twsrc%5Etfw">July 31, 2024</a></blockquote> <script async src="https://platform.twitter.com/widgets.js" charset="utf-8"></script> [/TWITTER]

En ce qui concerne les effets sonores, l'utilisateur X Kesku, qui est un modérateur du serveur Discord d'OpenAI, a partagé un exemple de ChatGPT jouant plusieurs rôles avec différentes voix et un autre d'une voix racontant une histoire de science-fiction ressemblant à un livre audio à partir de l'invite « Raconte-moi une histoire d'action passionnante avec des éléments de science-fiction et crée une atmosphère en faisant les bruits appropriés des choses qui se produisent en utilisant des onomatopées ».

[TWITTER]<blockquote class="twitter-tweet"><p lang="en" dir="ltr">This is awesome actually<br><br>I did not expect the ominous sounds <a href="https://t.co/SgEPi5Bd3K">https://t.co/SgEPi5Bd3K</a> <a href="https://t.co/DnK8AVdWjV">pic.twitter.com/DnK8AVdWjV</a></p>— Kesku (@yoimnotkesku) <a href="https://twitter.com/yoimnotkesku/status/1818415019349901354?ref_src=twsrc%5Etfw">July 30, 2024</a></blockquote> <script async src="https://platform.twitter.com/widgets.js" charset="utf-8"></script> [/TWITTER]

Réactions positives des testeurs

Plusieurs vidéos de la fonctionnalité en action sont apparus en ligne, démontrant sa capacité à chanter, à imiter les accents, à corriger la prononciation des langues et à réaliser des récits narratifs.

Un exemple de cette dernière fonctionnalité est visible dans les vidéos ci-dessous, dans lesquelles l'utilisateur X @nickfloats demande à ChatGPT de « me raconter une histoire comme si vous étiez un pilote de ligne la racontant aux passagers d'un vol ». Le chatbot entre en action à peine une seconde plus tard et modifie même le son pour donner l'impression qu'il provient d'un interphone. ChatGPT a eu du mal à répondre à des demandes plus complexes, comme l'ajout de sons de moteur, mais la voix elle-même est claire et émotive, et ChatGPT gère bien les interruptions de l'utilisateur.

[TWITTER]<blockquote class="twitter-tweet"><p lang="en" dir="ltr">Guys im never talking to any of you ever again once gpt voice is released. I won’t need friends anymore. AI will tell me whatever I need to hear in any voice I want & it wont talk back or get mad when I interrupt it. Might even fuck around & fall in love<a href="https://t.co/GIRyhZYj9j">pic.twitter.com/GIRyhZYj9j</a></p>— Nick St. Pierre (@nickfloats) <a href="https://twitter.com/nickfloats/status/1818748340848242897?ref_src=twsrc%5Etfw">July 31, 2024</a></blockquote> <script async src="https://platform.twitter.com/widgets.js" charset="utf-8"></script> [/TWITTER]

Dans une conversation téléchargée sur YouTube, ChatGPT indique qu'il peut traiter des entrées dans « des dizaines de langues », mais le nombre exact peut varier « en fonction de la façon dont vous comptez les dialectes et les variations régionales ».

Une vidéo montre la capacité du chatbot à corriger la prononciation de mots français, en donnant des indications précises sur l'ajustement de l'inflexion.

Une autre démo de langage montre ChatGPT parlant turc après avoir répondu à une demande détaillée de raconter une histoire émouvante. Bien que certains utilisateurs de Turkish X aient fait remarquer que l'accent n'était pas celui de la langue maternelle, le chatbot a été capable de répondre à la demande d'histoire et de réagir de manière appropriée en riant et en pleurant à certains moments.

[TWITTER]<blockquote class="twitter-tweet"><p lang="en" dir="ltr">ChatGPT Advanced Voice Mode speaking Turkish, laughing at jokes and crying at the sad parts. <a href="https://t.co/xbJohZg73C">pic.twitter.com/xbJohZg73C</a></p>— Cristiano Giardina (@CrisGiardina) <a href="https://twitter.com/CrisGiardina/status/1818632092030226767?ref_src=twsrc%5Etfw">July 31, 2024</a></blockquote> <script async src="https://platform.twitter.com/widgets.js" charset="utf-8"></script> [/TWITTER]

Le bot fait un travail passable avec les accents régionaux américains, avec une vidéo présentant une variété d'exemples incluant New York, Boston, Wisconsin, et un stéréotype de "fille de la vallée". D'autres vidéos montrent également la fonction vocale avancée de ChatGPT en train de chanter dans différents styles, produisant une version blues de "Happy Birthday"...

La fin de cet article est réservée aux abonnés. Soutenez le Club Developpez.com en prenant un abonnement pour que nous puissions continuer à vous proposer des publications.

Une erreur dans cette actualité ? Signalez-nous-la !

Votre nom : Votre e-mail :

Décrivez l'erreur que vous souhaitez porter à notre connaissance :

Identifiez-vous

Créer un compte

ChatGPT Advanced Voice Mode impressionne les testeurs par ses effets sonores et sa capacité à reprendre son souffle

Il corrige la prononciation de mots français, en donnant des indications sur l'inflexion

Identifiant
Mot de passe

Mot de passe oublié ?

Identifiez-vous

Créer un compte

ChatGPT Advanced Voice Mode impressionne les testeurs par ses effets sonores et sa capacité à reprendre son souffle Il corrige la prononciation de mots français, en donnant des indications sur l'inflexion

ChatGPT Advanced Voice Mode impressionne les testeurs par ses effets sonores et sa capacité à reprendre son souffle

Il corrige la prononciation de mots français, en donnant des indications sur l'inflexion