OpenAI a récemment fait une avancée en développant un assistant vocal basé sur l’intelligence artificielle, se positionnant ainsi comme un concurrent direct de géants tels que Google et Apple. OpenAI se prépare à faire la démonstration d'une technologie qui parle aux gens (en utilisant le son ainsi que le texte) et qui reconnaît les objets et les images. Selon deux personnes qui ont vu la nouvelle IA, le développeur de ChatGPT a montré à certains clients quelques-unes de ces capacités, qui incluent un meilleur raisonnement logique que ses produits actuels.Cette avancée ouvre la porte à des interactions plus riches, comme la possibilité de prendre une photo d’un monument lors d’un voyage et d’avoir des informations sur ses particularités, ou encore de demander de l’aide pour un problème de mathématiques en prenant en photo l’énoncé.
En septembre 2023, OpenAI a annoncé l’introduction de nouvelles capacités vocales et d’image pour ChatGPT, permettant aux utilisateurs de solliciter l’intelligence artificielle non seulement en tapant des phrases dans une zone de texte, mais aussi en parlant à haute voix ou en téléchargeant une photo.
L'entreprise a alors indiqué que la fonction pouvait être utilisée pour une variété d'applications quotidiennes : de la recherche de ce qu'il y a pour le dîner en prenant des photos du réfrigérateur et du garde-manger, à la recherche de la raison pour laquelle votre gril ne démarre pas. L'entreprise a également précisé que les utilisateurs pouvaient utiliser l'écran tactile de leur appareil pour entourer les parties de l'image sur lesquelles ils souhaitent que ChatGPT se concentre.
OpenAI à la conquête de l'industrie de l'assistant vocal
OpenAI considère que les assistants dotés de capacités visuelles et audio sont potentiellement aussi transformateurs que le smartphone. L'assistant pourrait théoriquement accomplir toute une série de tâches impossibles à réaliser aujourd'hui, telles que servir de tuteur à un étudiant qui travaille sur un devoir ou sur des problèmes de mathématiques, ou donner aux gens des informations sur leur environnement lorsqu'ils le demandent, comme traduire des panneaux ou expliquer comment réparer des problèmes de voiture.
La nouvelle technologie est trop volumineuse pour fonctionner sur des appareils personnels aujourd'hui, mais les clients pourraient à court terme utiliser la version basée sur l'informatique dématérialisée pour améliorer les fonctions que le logiciel d'OpenAI permet déjà, telles que les agents de service à la clientèle automatisés. Les fonctions audio du nouveau logiciel pourraient aider ces agents à mieux comprendre l'intonation de la voix des appelants ou à savoir s'ils sont sarcastiques lorsqu'ils formulent une demande, a déclaré l'une des personnes ayant connaissance du projet.
OpenAI dispose déjà d'un logiciel capable de transcrire l'audio et de convertir le texte en parole, mais ces fonctions sont disponibles via...
La fin de cet article est réservée aux abonnés. Soutenez le Club Developpez.com en prenant un abonnement pour que nous puissions continuer à vous proposer des publications.
