Le nouveau Advanced Voice Mode de ChatGPT, récemment déployé par OpenAI, a suscité l’enthousiasme des utilisateurs. Cette fonctionnalité permet des conversations en temps réel avec l’IA, avec la possibilité d’interrompre l’assistant en plein milieu de sa phrase. Mais ce qui a surpris beaucoup de gens, c’est la façon dont les voix simulent une respiration humaine.Mardi, OpenAI a commencé à déployer une version alpha de son nouveau mode vocal avancé auprès d'un petit groupe d'abonnés à ChatGPT Plus. Cette fonctionnalité, qu'OpenAI a présentée en mai avec le lancement de GPT-4o, vise à rendre les conversations avec l'IA plus naturelles et plus réactives. En mai, la fonction a suscité des critiques concernant l'expressivité émotionnelle simulée et a provoqué un conflit public avec l'actrice Scarlett Johansson, accusée par OpenAI d'avoir copié sa voix. Malgré cela, les premiers tests de la nouvelle fonctionnalité partagés par les utilisateurs sur les médias sociaux ont été largement enthousiastes.
Dans les premiers tests rapportés par les utilisateurs qui y ont accès, le mode vocal avancé leur permet d'avoir des conversations en temps réel avec ChatGPT, y compris la possibilité d'interrompre l'IA au milieu d'une phrase presque instantanément. L'IA peut percevoir les signaux émotionnels de l'utilisateur et y répondre par le ton et l'élocution de la voix, et produire des effets sonores lorsqu'elle raconte des histoires.
Mais ce qui a pris beaucoup de gens au dépourvu, c'est la façon dont les voix simulent une respiration pendant qu'elles parlent.
« ChatGPT Advanced Voice Mode compte aussi vite que possible jusqu'à 10, puis jusqu'à 50 (ce qui m'a époustouflé : il s'est arrêté pour reprendre son souffle comme le ferait un humain) », a écrit Cristiano Giardina sur X.
[TWITTER]<blockquote class="twitter-tweet"><p lang="en" dir="ltr">ChatGPT Advanced Voice Mode counting as fast as it can to 10, then to 50 (this blew my mind - it stopped to catch its breath like a human would) <a href="https://t.co/oZMCPO5RPh">pic.twitter.com/oZMCPO5RPh</a></p>— Cristiano Giardina (@CrisGiardina) <a href="https://twitter.com/CrisGiardina/status/1818627205217272098?ref_src=twsrc%5Etfw">July 31, 2024</a></blockquote> <script async src="https://platform.twitter.com/widgets.js" charset="utf-8"></script> [/TWITTER]
Le mode vocal avancé simule des pauses respiratoires audibles parce qu'il a été entraîné à partir d'échantillons audio d'êtres humains qui présentaient la même caractéristique. Le modèle a appris à simuler des inspirations à des moments apparemment appropriés après avoir été exposé à des centaines de milliers, voire des millions, d'exemples de discours humains. Les grands modèles de langage (LLM) comme le GPT-4o sont de grands imitateurs, et cette compétence s'étend désormais au domaine audio.
Giardina a fait part de ses autres impressions sur le mode vocal avancé sur X, notamment en ce qui concerne les accents dans d'autres langues et les effets sonores.
« Il est très rapide, il n'y a pratiquement aucune latence entre le moment où vous arrêtez de parler et le moment où il répond », écrit-il. « Lorsque vous lui demandez de faire des bruits, c'est toujours la voix qui "exécute" les bruits (avec des résultats amusants). Il peut prendre des accents, mais lorsqu'il parle d'autres langues, il a toujours un accent américain » Dans la vidéo, ChatGPT joue le rôle d'un commentateur de match de football.
[TWITTER]<blockquote class="twitter-tweet"><p lang="en" dir="ltr">Some early impressions of the ChatGPT Advanced Voice Mode:<br>It’s very fast, there’s virtually no latency from when you stop speaking to when it responds.<br>When you ask it to make noises it always has the voice “perform” the noises (with funny results).<br>It can do accents, but when… <a href="https://t.co/vOA8qmqX06">pic.twitter.com/vOA8qmqX06</a></p>— Cristiano Giardina (@CrisGiardina) <a href="https://twitter.com/CrisGiardina/status/1818440139946758438?ref_src=twsrc%5Etfw">July 31, 2024</a></blockquote> <script async src="https://platform.twitter.com/widgets.js" charset="utf-8"></script> [/TWITTER]
En ce qui concerne les effets sonores, l'utilisateur X Kesku, qui est un modérateur du serveur Discord d'OpenAI, a partagé un exemple de ChatGPT jouant plusieurs rôles avec différentes voix et un autre d'une voix racontant une histoire de science-fiction ressemblant à un livre audio à partir de l'invite « Raconte-moi une histoire d'action passionnante avec des éléments de science-fiction et crée une atmosphère en faisant les bruits appropriés des choses qui se produisent en utilisant des onomatopées »....
La fin de cet article est réservée aux abonnés. Soutenez le Club Developpez.com en prenant un abonnement pour que nous puissions continuer à vous proposer des publications.