Quatre mois après sa première présentation au public, OpenAI propose enfin sa nouvelle interface vocale conversationnelle pour ChatGPT (ChatGPT Advanced Voice Mode) aux utilisateurs au-delà de son petit groupe de test initial et de sa liste d'attente. Tous les abonnés payants aux plans ChatGPT Plus et Team d'OpenAI auront accès au nouveau ChatGPT Advanced Voice Mode, bien que l'accès soit déployé progressivement au cours des prochains jours, selon OpenAI. Il sera d'abord disponible aux États-Unis.
Pour mémoire, fin juillet, OpenAI a commencé à déployer une version alpha de son nouveau mode vocal avancé auprès d'un petit groupe d'abonnés à ChatGPT Plus. Cette fonctionnalité, qu'OpenAI a présentée en mai avec le lancement de GPT-4o, vise à rendre les conversations avec l'IA plus naturelles et plus réactives. En mai, la fonction a suscité des critiques concernant l'expressivité émotionnelle simulée et a provoqué un conflit public avec l'actrice Scarlett Johansson, accusée par OpenAI d'avoir copié sa voix. Malgré cela, les premiers tests de la nouvelle fonctionnalité partagés par les utilisateurs sur les médias sociaux ont été largement enthousiastes.
Qu'est-ce qu'il peut faire ?
Bien que ChatGPT offre actuellement un mode vocal standard aux utilisateurs payants, ses interactions peuvent être maladroites. Dans l'application mobile, par exemple, vous ne pouvez pas interrompre les réponses souvent longues du modèle avec votre voix, mais seulement en tapant sur l'écran. La nouvelle version corrige ce problème et promet également de modifier ses réponses en fonction de l'émotion qu'elle perçoit de votre voix. Comme pour les autres versions de ChatGPT, les utilisateurs peuvent personnaliser le mode vocal en demandant au modèle de se souvenir de faits les concernant. Le nouveau mode a également amélioré la prononciation des mots dans les langues autres que l'anglais.
L'investisseur en IA Allie Miller a publié une démo de l'outil en août, qui mettait en évidence un grand nombre des mêmes points forts que les vidéos de présentation d'OpenAI : Le modèle est rapide et capable de modifier son accent, son ton et son contenu en fonction de vos besoins.
Qui peut y accéder et quand ?I’m testing the new @OpenAI Advanced Voice Mode and I just snorted with laughter.
— Allie K. Miller (@alliekmiller) August 2, 2024
In a good way.
Watch the whole thing ⬇️ pic.twitter.com/vSOMzXdwZo
Pour l'instant, OpenAI propose l'accès à l'Advanced Voice Mode aux utilisateurs Plus, qui paient 20 $ par mois pour une version premium, et aux utilisateurs Team, qui paient 30 $ par mois et ont des limites de messages plus élevées. Le prochain groupe à bénéficier de l'accès sera celui des utilisateurs des catégories Enterprise et Edu. Un porte-parole d'OpenAI indique que l'entreprise « offrira progressivement l'accès à tous les utilisateurs des catégories Plus et Team, puis aux catégories Enterprise et Edu à partir de la semaine prochaine ». L'entreprise ne s'est pas engagée sur une date limite ferme pour l'accès de tous les utilisateurs de ces catégories. Un message dans l'application ChatGPT indique que tous les utilisateurs Plus auront accès à l'application d'ici « la fin de l'automne ».
Il existe des limitations géographiques. La nouvelle fonctionnalité n'est pas encore disponible dans l'UE, au Royaume-Uni, en Suisse, en Islande, en Norvège ou au Liechtenstein.
Il n'est pas prévu dans l'immédiat de mettre le mode vocal avancé à la disposition des utilisateurs gratuits. (Le mode standard reste disponible pour tous les utilisateurs payants).
Personnalisation et mémoire
OpenAI a ajouté la possibilité de stocker des « instructions personnalisées » pour l'assistant vocal et la « mémoire » des comportements que l'utilisateur souhaite qu'il adopte, à l'instar des fonctionnalités déployées plus tôt cette année pour la version texte de ChatGPT.
Cinq nouvelles voix au style différent sont également disponibles : Arbor, Maple, Sol, Spruce et Vale, qui viennent s'ajouter aux quatre voix précédentes, Breeze, Juniper, Cove et Ember, auxquelles les utilisateurs pouvaient s'adresser en utilisant l'ancien mode vocal, moins avancé, de ChatGPT.
Cela signifie que les utilisateurs de ChatGPT, les particuliers pour Plus et les petites équipes d'entreprise pour Teams, peuvent utiliser le chatbot en lui parlant au lieu de taper une invite. Les utilisateurs sauront qu'ils sont entrés dans l'assistant vocal avancé grâce à une fenêtre contextuelle lorsqu'ils accèdent au mode vocal de l'application.Meet the five new voices. pic.twitter.com/F9BOUaJqG1
— OpenAI (@OpenAI) September 24, 2024
« Depuis l'alpha, nous avons utilisé les connaissances acquises pour améliorer les accents dans les langues étrangères les plus populaires de ChatGPT, ainsi que la vitesse et la fluidité de la conversation », a déclaré l'entreprise. « Vous remarquerez également un nouveau design pour le mode vocal avancé avec une sphère bleue animée ».
À l'origine, le mode vocal comportait quatre voix (Breeze, Juniper, Cove et Ember), mais la nouvelle mise à jour apportera cinq nouvelles voix appelées Arbor, Maple, Sol, Spruce et Vale. OpenAI n'a pas fourni d'échantillon de voix pour les nouvelles voix.
Ces mises à jour ne sont disponibles que sur le modèle GPT-4o, et non sur le modèle de prévisualisation récemment sorti, o1. Les utilisateurs de ChatGPT peuvent également utiliser des instructions personnalisées et des mémoires pour s'assurer que le mode vocal est personnalisé et répond en fonction de leurs préférences pour toutes les conversations.
La course au chat vocalAdvanced Voice is rolling out to all Plus and Team users in the ChatGPT app over the course of the week.
— OpenAI (@OpenAI) September 24, 2024
While you’ve been patiently waiting, we’ve added Custom Instructions, Memory, five new voices, and improved accents.
It can also say “Sorry I’m late” in over 50 languages. pic.twitter.com/APOqqhXtDg
Depuis l'essor des assistants vocaux comme Siri d'Apple et Alexa d'Amazon, les développeurs ont voulu rendre l'expérience de chat génératif plus humaine.
ChatGPT a intégré des voix avant même le lancement du mode vocal, avec sa fonction de lecture à haute voix. Toutefois, l'idée du mode vocal avancé est d'offrir aux utilisateurs une expérience de conversation plus humaine, un concept que d'autres développeurs d'IA souhaitent également imiter.
Hume AI, une startup créée par Alan Cowen, ancien Deepminder de Google, a publié la deuxième version de son interface vocale Empathic Voice Interface, un assistant vocal à l'apparence humaine qui détecte les émotions en se basant sur le modèle de la voix d'une personne et qui peut être utilisé par les développeurs par le biais d'une API propriétaire.
La société française Kyutai a lancé en juillet Moshi, un assistant vocal à code source ouvert.
Google a également ajouté des voix à son chatbot Gemini par le biais de Gemini Live, dans le but de rattraper OpenAI. Reuters a rapporté que Meta développe également des voix qui ressemblent à des acteurs populaires pour les ajouter à sa plateforme Meta AI.
OpenAI annonce qu'elle met les voix de l'IA à la disposition d'un plus grand nombre d'utilisateurs sur ses plates-formes, mettant ainsi la technologie à la portée d'un plus grand nombre de personnes que les autres entreprises.
Une annonce qui est faite après des retards et des controverses
Toutefois, l'idée de voix IA conversant en temps réel et réagissant avec l'émotion appropriée n'a pas toujours été bien accueillie.
La tentative d'OpenAI d'ajouter des voix à ChatGPT a été controversée dès le départ. Lors de l'événement organisé en mai pour annoncer GPT-4o et le mode vocal, les gens ont remarqué des similitudes entre l'une des voix, Sky, et celle de l'actrice Scarlett Johanssen.
Le fait que le PDG d'OpenAI, Sam Altman, ait publié le mot « her » sur les réseaux sociaux, en référence au film dans lequel Scarlett Johanssen incarne une assistante IA, n'a pas facilité les choses. La controverse a suscité des inquiétudes quant au fait que les développeurs d'IA imitent les voix de personnes connues.
L'entreprise a nié avoir fait référence à Johansson et a insisté sur le fait qu'elle n'avait pas l'intention d'engager des acteurs dont la voix ressemble à celle d'autres personnes. Scarlett Johansson a refusé la proposition d'OpenAI d'utiliser sa voix pour l'intelligence artificielle mais l'entreprise s'en est quand même servi. « Lorsque j'ai appris pour la démo, j'ai été choquée, irritée à l'idée que Sam Altman puisse utiliser une voix si similaire à la mienne que mes amis les plus proches et les médias n'ont pas pu faire la différence. J'ai été obligée d'engager un conseiller juridique qui a écrit deux lettres à Sam Altman pour demander à OpenAI d'expliquer en détail comment elle avait créé la voix de Sky », a déclaré l'actrice.
L'entreprise a déclaré que les utilisateurs ne sont limités qu'aux neuf voix d'OpenAI. Elle a également déclaré qu'elle avait évalué la sécurité avant la mise en circulation. « Nous avons testé les capacités vocales du modèle avec des membres de l'équipe rouge externe, qui parlent collectivement un total de 45 langues différentes et représentent 29 zones géographiques différentes », a déclaré l'entreprise dans un communiqué adressé aux journalistes.
Cependant, elle a retardé le lancement du mode vocal avancé de ChatGPT de la date initiale prévue de fin juin à « fin juillet ou début août », et seulement à un groupe d'utilisateurs initiaux sélectionnés par OpenAI, tels que le professeur Ethan Mollick de la Wharton School of Business de l'université de Pennsylvanie, en invoquant la nécessité de poursuivre les tests de sécurité ou de faire du red teaming du mode vocal afin d'éviter son utilisation pour des fraudes et des actes répréhensibles potentiels.
De toute évidence, l'entreprise estime qu'elle en a fait assez pour diffuser le mode plus largement maintenant - et cela est conforme à l'approche généralement plus prudente d'OpenAI ces derniers temps, en travaillant main dans la main avec les gouvernements des États-Unis et du Royaume-Uni et en leur permettant de découvrir en avant-première de nouveaux modèles tels que sa série o1 avant le lancement.
Quelles mesures ont été prises pour garantir la sécurité ?
Comme la société l'a indiqué lors de la sortie initiale en juillet et l'a de nouveau souligné cette semaine, le mode vocal avancé a été testé par des experts externes « qui parlent collectivement un total de 45 langues différentes et représentent 29 zones géographiques différentes ». La carte système GPT-4o détaille la manière dont le modèle sous-jacent gère des problèmes tels que la génération de discours violents ou érotiques, l'imitation de voix sans leur consentement ou la génération de contenus protégés par des droits d'auteur.
Toutefois, les modèles d'OpenAI ne sont pas libres de droits. Par rapport à ces modèles, qui sont plus transparents en ce qui concerne leurs données d'entraînement et les « poids du modèle » qui régissent la manière dont l'IA produit des réponses, les modèles fermés d'OpenAI sont plus difficiles à évaluer par des chercheurs indépendants du point de vue de la sécurité, de la partialité et de la nocivité.
Néanmoins, l’introduction de ce mode vocal avancé soulève des questions importantes sur la vie privée et la sécurité. Bien que la capacité de l’IA à détecter les émotions et à mémoriser les préférences puisse améliorer l’expérience utilisateur, elle pose également des défis en matière de protection des données personnelles. Comment OpenAI garantit-elle la sécurité des informations sensibles ? Quels sont les mécanismes en place pour prévenir les abus ?
Sources : OpenAI (1, 2)
Et vous ?
Pensez-vous que l’introduction de technologies vocales avancées pourrait transformer certaines professions ? Si oui, lesquelles et comment ?
Comment les technologies vocales peuvent-elles améliorer l’accessibilité pour les personnes en situation de handicap ? Quels défis restent à surmonter ?
À quel point est-il important pour vous que les interactions avec les IA soient aussi naturelles que possible ? Quels sont les avantages et les inconvénients de cette naturalité accrue ?
Quelles mesures OpenAI pourrait-elle prendre pour renforcer la confiance des utilisateurs dans ses technologies vocales ? Quels sont les éléments clés pour établir cette confiance ?
Qui devrait être responsable en cas de mauvaise utilisation des technologies vocales avancées ? Les entreprises, les utilisateurs, ou les régulateurs ?
Voir aussi :
Quand l'IA devient étrange : OpenAI constate que GPT-4o fait parfois des choses vraiment bizarres comme le clonage de la voix de son interlocuteur ou des effets sonores inappropriés
ChatGPT Advanced Voice Mode impressionne les testeurs par ses effets sonores et sa capacité à reprendre son souffle. Il corrige la prononciation de mots français, en donnant des indications sur l'inflexion
Le Voice Mode du chatbot GPT-4o d'OpenAI peut imiter votre voix et vous crier dessus, et il a maintenant appris à emettre d'horribles cris robotiques lorsqu'on lui demande de le faire