En septembre 2023, OpenAI a introduit des capacités vocales pour donner aux utilisateurs un autre moyen d'interagir avec ChatGPT. Depuis, elle est encouragée par la façon dont les utilisateurs ont réagi à la fonctionnalité et aux voix individuelles. Chacune des voix - Breeze, Cove, Ember, Juniper et Sky - est échantillonnée à partir d'acteurs vocaux avec lesquels OpenAI s'est associée pour les créer.
OpenAI soutient la communauté créative et collabore avec l'industrie de l'interprétation vocale
OpenAI soutient la communauté créative et a collaboré étroitement avec l'industrie de l'interprétation vocale afin de s'assurer qu'elle a pris les bonnes mesures pour distribuer les voix de ChatGPT. Chaque acteur reçoit une rémunération supérieure aux taux les plus élevés du marché, et cela continuera tant que leurs voix seront utilisées dans les produits d'OpenAI.
L'entreprise estime que les voix d'IA ne doivent pas délibérément imiter la voix distinctive d'une célébrité - la voix de Sky n'est pas une imitation de Scarlett Johansson, mais appartient à une actrice professionnelle différente qui utilise sa propre voix naturelle. Pour protéger leur vie privée, OpenAI ne peut pas divulguer les noms de ses talents vocaux.
OpenAI s'est associé à des directeurs de casting et des producteurs primés pour créer les critères des voix
Début 2023, pour identifier ses acteurs vocaux, OpenAI a eu le privilège de s'associer à des directeurs de casting et des producteurs indépendants, réputés et primés. OpenAI a travaillé avec eux pour créer un ensemble de critères pour les voix de ChatGPT, en prenant soigneusement en compte la personnalité unique de chaque voix et leur attrait pour le public mondial.
Voici quelques-unes de ces caractéristiques :
- Des acteurs d'origines diverses ou capables de parler plusieurs langues.
- Une voix qui semble intemporelle
- Une voix accessible qui inspire la confiance
- Une voix chaleureuse, engageante, inspirant la confiance, charismatique, avec un ton riche.
- Une voix naturelle et facile à écouter
OpenAI a reçu plus de 400 candidatures d'acteurs de la voix et de l'écran
En mai 2023, l'agence de casting et les directeurs de casting d'OpenAI ont lancé un appel à talents. En moins d'une semaine, ils ont reçu plus de 400 candidatures d'acteurs et de comédiens. Pour l'audition, les acteurs ont reçu un script de réponses ChatGPT et ont été invités à les enregistrer. Ces échantillons allaient de la réponse à des questions sur la pleine conscience au brainstorming sur des projets de voyage, en passant par des conversations sur la journée d'un utilisateur.
OpenAI a sélectionné cinq voix finales et a discuté avec les acteurs de sa vision des interactions homme-IA et des objectifs du mode vocal
Jusqu'en mai 2023, l'équipe de casting a examiné et sélectionné de manière indépendante une liste initiale de 14 acteurs. Ils ont encore affiné leur liste avant de présenter à OpenAI leurs meilleures voix pour le projet.
OpenAI a parlé avec chaque acteur de la vision des interactions vocales entre l'homme et l'IA et d'OpenAI, et a discuté des capacités de la technologie, de ses limites et des risques encourus, ainsi que des mesures de protection qu'elle a mises en œuvre. Il était important pour OpenAI que chaque acteur comprenne la portée et les intentions de Voice Mode avant de s'engager dans le projet.
Une équipe interne à OpenAI a examiné les voix du point de vue du produit et de la recherche, et après un examen approfondi, les voix de Breeze, Cove, Ember, Juniper et Sky ont finalement été sélectionnées.
Chaque acteur s'est rendu à San Francisco pour des sessions d'enregistrement et leurs voix ont été lancées dans ChatGPT en septembre 2023
En juin et juillet, OpenAI a envoyé les acteurs en avion à San Francisco pour des sessions d'enregistrement et des réunions en personne avec les équipes de produits et de recherche d'OpenAI.
Le 25 septembre 2023, OpenAI a lancé leurs voix dans ChatGPT.
L'ensemble de ce processus a nécessité une coordination poussée avec les acteurs et l'équipe de casting, sur une période de cinq mois. OpenAI continue de collaborer avec les acteurs, qui ont contribué à un travail supplémentaire pour la recherche audio et les nouvelles capacités vocales dans GPT-4o.
Nouveau mode vocal pour les utilisateurs payants de GPT-4o et ajout de nouvelles voix
OpenAI prévoit de donner accès à un nouveau mode vocal pour GPT-4o en alpha aux utilisateurs de ChatGPT Plus dans les semaines à venir. Avec GPT-4o, l'utilisation de la voix de l'utilisateur pour interagir avec ChatGPT est beaucoup plus naturelle. GPT-4o gère les interruptions en douceur, gère efficacement les conversations de groupe, filtre les bruits de fond et s'adapte au ton.
À l'avenir, les clients d'OpenAI peuvent s'attendre à encore plus d'options, car l'entreprise prévoit d'introduire d'autres voix dans ChatGPT afin de mieux correspondre aux divers intérêts et préférences des utilisateurs.
Mais que s'est il passé en vrai ?
OpenAI a contacté Scarlett Johansson. L’objectif : utiliser sa voix pour son dernier modèle d’intelligence artificielle dénommé GPT-4o. Scarlett Johansson vient de faire une déclaration sur la copie de sa voix par OpenAI après son refus de coopérer dans le sens de la prêter à l’entreprise dirigée par Sam Altman. La nouvelle tombe dans un contexte de protestations contre l’utilisation de l’intelligence artificielle dans la création musicale et cinématographique. Scarlett Johansson refuse la proposition d'OpenAI d'utiliser sa voix pour l'intelligence artificielle mais l'entreprise s'en sert quand même « J'ai été choquée », déclare l'actrice.
Source : OpenAI
Et vous ?
Quel est votre avis sur le sujet ?
Pensez-vous qu'il ne faut pas accorder une confiance aveugle dans les déclarations officielles d'OpenAI ?
Voir aussi :
GPT-4o a atteint une précision de 54 % sur CodeContests avec AlphaCodium, contre 48 % pour GPT-4T, AlphaCodium décompose un problème de programmation compétitif en étapes simples sur un flux LLM automatisé
GPT-4o arrive en tête du classement des modèles d'IA les plus performants de LMSYS Chatbot Arena avec un score Elo de 1 289, surpassant ainsi Gemini Pro 1.5 de Google et Claude 3 Opus d'Anthropic
Percée de la mémoire de GPT-4o, bien meilleure que celle de GPT-4 Turbo, sur un nouveau benchmark, qui mesure l'attention portée par les LLM à l'information contenue dans leur fenêtre contextuelle