Il y a un an, OpenAI a déployé une nouvelle version de ChatGPT qui permet aux utilisateurs de solliciter l’intelligence artificielle non seulement en tapant des phrases dans une zone de texte, mais aussi en parlant à haute voix ou en téléchargeant une photo. Les fonctionnalités permettent au chatbot d'avoir des conversations vocales avec les utilisateurs et d'interagir avec des images.
Pour la fonctionnalité vocale, OpenAI a indiqué comment elle fonctionne : vous appuyez sur un bouton et prononcez votre question, ChatGPT la convertit en texte et l’envoie au grand modèle de langage, reçoit une réponse en retour, la convertit à nouveau en parole et prononce la réponse à voix haute. La fonction vocale "ouvre la voie à de nombreuses applications créatives et axées sur l'accessibilité", a déclaré OpenAI lors de l'annonce.
En ce début d'octobre 2024, OpenAI a dévoilé une série de nouveaux outils qui permettront aux développeurs de créer plus facilement des applications basées sur sa technologie d'intelligence artificielle ChatGPT.
La startup soutenue par Microsoft a déclaré qu'un nouvel outil en temps réel, déployé immédiatement à des fins de test, permettrait aux développeurs de créer des applications vocales d'IA en utilisant un seul ensemble d'instructions. Auparavant, les développeurs devaient passer par au moins trois étapes : d'abord la transcription de l'audio, puis l'exécution du modèle de texte généré pour obtenir une réponse à la requête et enfin l'utilisation d'un modèle de synthèse vocale séparé.
Dans le cadre du déploiement, OpenAI a présenté un outil de réglage fin pour les modèles après l'entraînement, qui permettrait aux développeurs d'améliorer les réponses générées par les modèles utilisant des images et du texte. Ce processus d'affinage peut inclure un retour d'information de la part d'humains qui donnent au modèle des exemples de bonnes et de mauvaises réponses en se basant sur ses réponses.
L'utilisation d'images pour affiner les modèles leur donnerait de meilleures capacités de compréhension des images, ce qui permettrait des applications telles que l'amélioration de la recherche visuelle et de la détection d'objets pour les véhicules autonomes, a déclaré OpenAI. La startup a également dévoilé un outil qui permettrait à des modèles plus petits d'apprendre à partir de modèles plus grands, ainsi que le "Prompt Caching" qui réduit de moitié certains coûts de développement en réutilisant des morceaux de texte que l'IA a précédemment traités.
Une grande partie des revenus d'OpenAI provient des entreprises qui utilisent ses services pour créer leurs propres applications d'IA, ce qui fait du déploiement de capacités avancées un argument de vente clé. La concurrence s'est intensifiée à mesure que les géants de la technologie, notamment Alphabet, la société mère de Google, intègrent dans leurs activités des modèles d'IA capables d'analyser différentes formes d'informations telles que la vidéo, l'audio et le texte.
OpenAI s'attend à ce que son chiffre d'affaires passe de 3,7 milliards de dollars en 2024 à 11,6 milliards de dollars l'année prochaine. L'entreprise est également en pleine levée de fonds de 6,5 milliards de dollars, ce qui pourrait la valoriser à 150 milliards de dollars.
Pour rappel, en août 2024, OpenAI a lancé la version alpha de la fonctionnalité Advanced Voice Mode dans ChatGPT, alimentée par le modèle d’intelligence artificielle GPT-4o. Ce modèle est le premier à être formé à la fois sur la voix, le texte et les images, ce qui ouvre la voie à des expériences multimodales passionnantes. Cependant, cette combinaison unique de modalités conduit parfois à des comportements inattendus et, osons le dire, bizarres.
Dans les premiers tests rapportés par les utilisateurs qui y ont accès, le mode vocal avancé leur permet d'avoir des conversations en temps réel avec ChatGPT, y compris la possibilité d'interrompre l'IA au milieu d'une phrase presque instantanément. Mais ce qui a pris beaucoup de gens au dépourvu, c'est la façon dont les voix simulent une respiration pendant qu'elles parlent. Le mode vocal de GPT-4o d'OpenAI peut également imiter votre voix et vous crier dessus. Mais les cris robotiques ont été bouleversants et plus que troublants.
Source : OpenAI
Et vous ?
Que pensez-vous de ces nouvelles fonctionnalités ?
Voir aussi :
Le mode Vocal Avancé de ChatGPT déployé auprès des utilisateurs payants : OpenAI affirme que cette version réagit à vos émotions et au ton de votre voix, mais la fonctionnalité est bloquée en UE et en UK
Google lance Gemini Live, un chatbot d'IA à commande vocale gratuit pour les utilisateurs d'Android. Gemini Live permettrait d'avoir des conversations naturelles avec un assistant d'IA
Meta intègre les voix d'acteurs de Hollywood à son chatbot d'IA pour vous permettre d'avoir des conversations vocales en temps réel avec le chatbot sur Facebook, Instagram, WhatsApp et Threads