IdentifiantMot de passe
Loading...
Mot de passe oublié ?Je m'inscris ! (gratuit)

Vous êtes nouveau sur Developpez.com ? Créez votre compte ou connectez-vous afin de pouvoir participer !

Vous devez avoir un compte Developpez.com et être connecté pour pouvoir participer aux discussions.

Vous n'avez pas encore de compte Developpez.com ? Créez-en un en quelques instants, c'est entièrement gratuit !

Si vous disposez déjà d'un compte et qu'il est bien activé, connectez-vous à l'aide du formulaire ci-dessous.

Identifiez-vous
Identifiant
Mot de passe
Mot de passe oublié ?
Créer un compte

L'inscription est gratuite et ne vous prendra que quelques instants !

Je m'inscris !

ChatGPT Advanced Voice Mode impressionne les testeurs par ses effets sonores et sa capacité à reprendre son souffle
Il corrige la prononciation de mots français, en donnant des indications sur l'inflexion

Le , par Stéphane le calme

9PARTAGES

10  0 
Le nouveau Advanced Voice Mode de ChatGPT, récemment déployé par OpenAI, a suscité l’enthousiasme des utilisateurs. Cette fonctionnalité permet des conversations en temps réel avec l’IA, avec la possibilité d’interrompre l’assistant en plein milieu de sa phrase. Mais ce qui a surpris beaucoup de gens, c’est la façon dont les voix simulent une respiration humaine.

Mardi, OpenAI a commencé à déployer une version alpha de son nouveau mode vocal avancé auprès d'un petit groupe d'abonnés à ChatGPT Plus. Cette fonctionnalité, qu'OpenAI a présentée en mai avec le lancement de GPT-4o, vise à rendre les conversations avec l'IA plus naturelles et plus réactives. En mai, la fonction a suscité des critiques concernant l'expressivité émotionnelle simulée et a provoqué un conflit public avec l'actrice Scarlett Johansson, accusée par OpenAI d'avoir copié sa voix. Malgré cela, les premiers tests de la nouvelle fonctionnalité partagés par les utilisateurs sur les médias sociaux ont été largement enthousiastes.

Dans les premiers tests rapportés par les utilisateurs qui y ont accès, le mode vocal avancé leur permet d'avoir des conversations en temps réel avec ChatGPT, y compris la possibilité d'interrompre l'IA au milieu d'une phrase presque instantanément. L'IA peut percevoir les signaux émotionnels de l'utilisateur et y répondre par le ton et l'élocution de la voix, et produire des effets sonores lorsqu'elle raconte des histoires.


Mais ce qui a pris beaucoup de gens au dépourvu, c'est la façon dont les voix simulent une respiration pendant qu'elles parlent.

« ChatGPT Advanced Voice Mode compte aussi vite que possible jusqu'à 10, puis jusqu'à 50 (ce qui m'a époustouflé : il s'est arrêté pour reprendre son souffle comme le ferait un humain) », a écrit Cristiano Giardina sur X.

Le mode vocal avancé simule des pauses respiratoires audibles parce qu'il a été entraîné à partir d'échantillons audio d'êtres humains qui présentaient la même caractéristique. Le modèle a appris à simuler des inspirations à des moments apparemment appropriés après avoir été exposé à des centaines de milliers, voire des millions, d'exemples de discours humains. Les grands modèles de langage (LLM) comme le GPT-4o sont de grands imitateurs, et cette compétence s'étend désormais au domaine audio.

Giardina a fait part de ses autres impressions sur le mode vocal avancé sur X, notamment en ce qui concerne les accents dans d'autres langues et les effets sonores.

« Il est très rapide, il n'y a pratiquement aucune latence entre le moment où vous arrêtez de parler et le moment où il répond », écrit-il. « Lorsque vous lui demandez de faire des bruits, c'est toujours la voix qui "exécute" les bruits (avec des résultats amusants). Il peut prendre des accents, mais lorsqu'il parle d'autres langues, il a toujours un accent américain » Dans la vidéo, ChatGPT joue le rôle d'un commentateur de match de football.

En ce qui concerne les effets sonores, l'utilisateur X Kesku, qui est un modérateur du serveur Discord d'OpenAI, a partagé un exemple de ChatGPT jouant plusieurs rôles avec différentes voix et un autre d'une voix racontant une histoire de science-fiction ressemblant à un livre audio à partir de l'invite « Raconte-moi une histoire d'action passionnante avec des éléments de science-fiction et crée une atmosphère en faisant les bruits appropriés des choses qui se produisent en utilisant des onomatopées ».

Réactions positives des testeurs

Plusieurs vidéos de la fonctionnalité en action sont apparus en ligne, démontrant sa capacité à chanter, à imiter les accents, à corriger la prononciation des langues et à réaliser des récits narratifs.

Un exemple de cette dernière fonctionnalité est visible dans les vidéos ci-dessous, dans lesquelles l'utilisateur X @nickfloats demande à ChatGPT de « me raconter une histoire comme si vous étiez un pilote de ligne la racontant aux passagers d'un vol ». Le chatbot entre en action à peine une seconde plus tard et modifie même le son pour donner l'impression qu'il provient d'un interphone. ChatGPT a eu du mal à répondre à des demandes plus complexes, comme l'ajout de sons de moteur, mais la voix elle-même est claire et émotive, et ChatGPT gère bien les interruptions de l'utilisateur.

Dans une conversation téléchargée sur YouTube, ChatGPT indique qu'il peut traiter des entrées dans « des dizaines de langues », mais le nombre exact peut varier « en fonction de la façon dont vous comptez les dialectes et les variations régionales ».


Une vidéo montre la capacité du chatbot à corriger la prononciation de mots français, en donnant des indications précises sur l'ajustement de l'inflexion.


Une autre démo de langage montre ChatGPT parlant turc après avoir répondu à une demande détaillée de raconter une histoire émouvante. Bien que certains utilisateurs de Turkish X aient fait remarquer que l'accent n'était pas celui de la langue maternelle, le chatbot a été capable de répondre à la demande d'histoire et de réagir de manière appropriée en riant et en pleurant à certains moments.

Le bot fait un travail passable avec les accents régionaux américains, avec une vidéo présentant une variété d'exemples incluant New York, Boston, Wisconsin, et un stéréotype de "fille de la vallée". D'autres vidéos montrent également la fonction vocale avancée de ChatGPT en train de chanter dans différents styles, produisant une version blues de "Happy Birthday" et, de manière amusante, essayant d'imiter le son d'animaux tels que les grenouilles et les chats chantant le même air.


Manuel Sainsily, grand défenseur de l'IA, a posté une vidéo du mode vocal avancé réagissant à la saisie de la caméra et donnant des conseils sur la manière de s'occuper d'un chaton. « C'est comme si nous étions en face d'un ami bien informé qui, dans ce cas, nous a beaucoup aidés et rassurés avec notre nouveau chaton », a-t-il écrit. « Il peut répondre aux questions en temps réel et utiliser la caméra comme source d'information ! »

Bien sûr, étant basé sur un LLM, il peut occasionnellement donner des réponses incorrectes sur des sujets ou dans des situations où ses « connaissances » (qui proviennent de l'ensemble de données d'entraînement de GPT-4o) sont insuffisantes. Mais si l'on considère qu'il s'agit d'une démo technique ou d'un divertissement alimenté par l'IA et que l'on est conscient de ses limites, Advanced Voice Mode semble exécuter avec succès un grand nombre des tâches présentées dans la démo d'OpenAI en mai.

Sécurité

Un porte-parole d'OpenAI a déclaré que l'entreprise avait travaillé avec plus de 100 testeurs externes sur la version Advanced Voice Mode, parlant collectivement 45 langues différentes et représentant 29 zones géographiques. Le système aurait été conçu pour empêcher l'usurpation d'identité de personnes ou de personnalités publiques en bloquant les voix qui diffèrent des quatre voix prédéfinies choisies par OpenAI.

OpenAI a également ajouté des filtres pour reconnaître et bloquer les demandes de génération de musique ou d'autres fichiers audio protégés par des droits d'auteur, ce qui a causé des problèmes à d'autres sociétés d'IA. Giardina a signalé des « fuites » audio dans certaines sorties audio qui contiennent de la musique involontaire en arrière-plan, ce qui montre qu'OpenAI a entraîné le modèle vocal AVM sur une grande variété de sources audio, probablement à la fois à partir de matériel sous licence et d'audio récupéré sur des plateformes vidéo en ligne.

Disponibilité

OpenAI prévoit d'étendre l'accès à davantage d'utilisateurs de ChatGPT Plus dans les semaines à venir, avec un lancement complet pour tous les abonnés Plus prévu cet automne. Un porte-parole de l'entreprise a déclaré que les utilisateurs du groupe de test alpha recevront une notification dans l'application ChatGPT et un courriel contenant des instructions d'utilisation.

Depuis la présentation initiale de GPT-4o voice en mai, OpenAI affirme avoir amélioré la capacité du modèle à prendre en charge des millions de conversations vocales simultanées en temps réel, tout en maintenant une faible latence et une qualité élevée. En d'autres termes, l'entreprise se prépare à une ruée qui nécessitera une grande quantité de calculs en arrière-plan.

Source : OpenAI

Et vous ?

Pensez-vous que l’ajout d’effets sonores et de pauses respiratoires dans les interactions avec l’IA améliore l’expérience utilisateur ? Pourquoi ?
Quelles sont les implications éthiques de simuler la respiration humaine dans les assistants vocaux ?
Croyez-vous que les assistants vocaux devraient imiter davantage les caractéristiques humaines, ou préférez-vous une approche plus neutre ?
Comment percevez-vous l’évolution des interactions homme-machine à mesure que les technologies vocales progressent ?
Avez-vous déjà été surpris par la façon dont un assistant vocal a réagi à vos émotions ou à vos demandes ? Partagez votre expérience.

Une erreur dans cette actualité ? Signalez-nous-la !

Avatar de jnspunk
Membre habitué https://www.developpez.com
Le 14/08/2024 à 12:20
Tous les outils sur cette planète peuvent être mal utilisés mais il y en a toujours qui vont se plaindre que l'IA puisse être mal utilisée. La bêtise en devient drole, mais c'est triste quelque part.
1  0 
Avatar de JackIsJack
Membre éclairé https://www.developpez.com
Le 03/08/2024 à 7:19
Là c'est un autre level sur l'impact sociétal possible...
0  0 
Avatar de Chouteau
Membre régulier https://www.developpez.com
Le 05/08/2024 à 13:24
Meme si a priori c'est une technologie spectaculaire, je ne peux m'empêcher de penser que les utilisations malveillantes qui vont en découler vont largement dépasser tout ce que l'on a pu connaitre.
Et que dire d'un robot qui rigole...
0  0