Cette avancée ouvre la porte à des interactions plus riches, comme la possibilité de prendre une photo d’un monument lors d’un voyage et d’avoir des informations sur ses particularités, ou encore de demander de l’aide pour un problème de mathématiques en prenant en photo l’énoncé.
En septembre 2023, OpenAI a annoncé l’introduction de nouvelles capacités vocales et d’image pour ChatGPT, permettant aux utilisateurs de solliciter l’intelligence artificielle non seulement en tapant des phrases dans une zone de texte, mais aussi en parlant à haute voix ou en téléchargeant une photo.
L'entreprise a alors indiqué que la fonction pouvait être utilisée pour une variété d'applications quotidiennes : de la recherche de ce qu'il y a pour le dîner en prenant des photos du réfrigérateur et du garde-manger, à la recherche de la raison pour laquelle votre gril ne démarre pas. L'entreprise a également précisé que les utilisateurs pouvaient utiliser l'écran tactile de leur appareil pour entourer les parties de l'image sur lesquelles ils souhaitent que ChatGPT se concentre.
Envoyé par OpenAI
OpenAI à la conquête de l'industrie de l'assistant vocal
OpenAI considère que les assistants dotés de capacités visuelles et audio sont potentiellement aussi transformateurs que le smartphone. L'assistant pourrait théoriquement accomplir toute une série de tâches impossibles à réaliser aujourd'hui, telles que servir de tuteur à un étudiant qui travaille sur un devoir ou sur des problèmes de mathématiques, ou donner aux gens des informations sur leur environnement lorsqu'ils le demandent, comme traduire des panneaux ou expliquer comment réparer des problèmes de voiture.
La nouvelle technologie est trop volumineuse pour fonctionner sur des appareils personnels aujourd'hui, mais les clients pourraient à court terme utiliser la version basée sur l'informatique dématérialisée pour améliorer les fonctions que le logiciel d'OpenAI permet déjà, telles que les agents de service à la clientèle automatisés. Les fonctions audio du nouveau logiciel pourraient aider ces agents à mieux comprendre l'intonation de la voix des appelants ou à savoir s'ils sont sarcastiques lorsqu'ils formulent une demande, a déclaré l'une des personnes ayant connaissance du projet.
OpenAI dispose déjà d'un logiciel capable de transcrire l'audio et de convertir le texte en parole, mais ces fonctions sont disponibles via des modèles d'IA conversationnelle distincts, alors que le nouveau modèle réunit ces fonctions. Le nouveau modèle multimodal comprend donc mieux les images et les sons, et il est plus rapide à utiliser que les modèles moins performants.
Microsoft, qui peut utiliser la technologie d'OpenAI à sa guise parce qu'il est le principal bailleur de fonds de la société, pourrait utiliser la nouvelle IA d'OpenAI pour améliorer son propre assistant vocal ou essayer de la rendre suffisamment compacte pour qu'elle puisse fonctionner sur de petits appareils, notamment des vêtements dotés de caméras frontales capables de filmer l'environnement du client.
The Information, qui a rapporté cette situation, ne dispose pas d'éléments pour savoir quand OpenAI mettra ces nouvelles fonctionnalités à la disposition de ses clients payants, mais le quotidien soutient que l'entreprise prévoit de les intégrer à la version gratuite de son chatbot, ChatGPT, s'appuyant sur les propos de l'une des personnes qui l'a utilisé. OpenAI vise à rendre le nouveau modèle d'IA qui alimente ces fonctionnalités moins cher à utiliser que le modèle le plus avancé qu'elle vend aujourd'hui, GPT-4 Turbo, a déclaré cette personne. Le nouveau modèle est également plus performant que le GPT-4 Turbo pour répondre à certains types de questions. Toutefois, le nouveau modèle peut encore commettre des erreurs, connues sous le nom d'hallucinations.
Cette technologie constitue une nouvelle étape dans la quête de Sam Altman, PDG d'OpenAI, qui souhaite développer une IA très réactive, à l'instar de l'assistant virtuel du film « Her » de Spike Jonze, et permettre aux assistants vocaux existants, tels que Siri d'Apple, d'être plus utiles. L'entreprise pourrait présenter en avant-première l'IA améliorée lors d'un événement dès lundi, ce qui l'aiderait à prendre de l'avance sur les nombreuses annonces d'IA faites par son rival Google plus tard dans la semaine, a déclaré l'une des personnes interrogées.
Considérations critiques sur l’assistant vocal IA d’OpenAI
Bien que l’assistant vocal IA d’OpenAI représente une avancée significative dans le domaine de l’intelligence artificielle, il est important de considérer certains aspects critiques de cette technologie. Premièrement, la question de la vie privée et de la sécurité des données est primordiale. Avec des appareils capables d’écouter et de répondre à nos commandes vocales, il est essentiel de s’assurer que les informations personnelles des utilisateurs sont protégées contre les abus et les fuites potentielles.
Deuxièmement, l’impact sur le marché du travail doit être pris en compte. L’automatisation et l’IA peuvent entraîner une réduction des emplois dans certains secteurs, et il est crucial de réfléchir à la manière dont la société peut s’adapter à ces changements. La formation et le développement de compétences dans des domaines résistants à l’automatisation deviennent alors une priorité.
Troisièmement, il y a un risque de dépendance accrue à la technologie. En rendant les interactions avec les appareils plus faciles et plus intuitives, les utilisateurs pourraient devenir excessivement dépendants de l’assistance IA, ce qui pourrait avoir des conséquences sur leur capacité à effectuer des tâches sans aide technologique.
Enfin, il est crucial de considérer l’accessibilité de ces technologies. Alors que les assistants vocaux IA peuvent améliorer la vie de nombreux utilisateurs, il est important de s’assurer que ces avancées bénéficient à tous, y compris aux personnes ayant des revenus plus faibles ou vivant dans des régions moins développées.
Ces considérations critiques ne visent pas à minimiser les réalisations d’OpenAI, mais plutôt à souligner l’importance d’une approche équilibrée et responsable dans le développement et le déploiement de technologies d’IA avancées. Il est essentiel que les progrès technologiques s’accompagnent d’une réflexion éthique et sociale approfondie pour garantir qu’ils servent le bien-être collectif et respectent les droits individuels.
Tarification échelonnée
OpenAI, qui pourrait générer des milliards de dollars de revenus cette année, prévoit également de lancer un nouveau modèle de tarification qui offrirait aux clients jusqu'à 50 % de réduction s'ils paient à l'avance pour réserver des jetons (les mots que les grands modèles de langage traitent ou génèrent), selon une personne qui s'est entretenue avec les dirigeants.
Actuellement, la startup propose principalement une tarification à la demande, facturant aux développeurs entre quelques centimes et 120 dollars pour chaque million de tokens générés par ses LLM. Certains gros clients bénéficient de remises sur le volume. Les clients de Microsoft Azure, Google Cloud et Amazon Web Services peuvent réduire leurs coûts en réservant à l'avance la capacité de leurs serveurs.
Avec une tarification plus souple, OpenAI pourrait mieux rivaliser avec ses concurrents développeurs de modèles, ainsi qu'avec les startups qui visent à aider les développeurs à exécuter des modèles open-source à moindre coût, connues sous le nom de revendeurs de serveurs d'IA ou de fournisseurs d'inférence. Leur souci de rentabilité a parfois conduit ces entreprises à proposer les mêmes LLM à des prix de plus en plus bas, voire inférieurs au prix de revient dans certains cas.
OpenAI a déjà proposé à ses développeurs un moyen de réduire les coûts avec Batch API, une interface de programmation d'applications lancée en avril qui permet aux développeurs de bénéficier de tarifs plus avantageux s'ils téléchargent des requêtes de modèles en masse et s'ils sont prêts à attendre jusqu'à 24 heures pour obtenir des réponses. Pour leur part, les revendeurs de serveurs d'IA tels que Together AI et Anyscale affirment que l'exécution de modèles open-source sur leurs logiciels est un moyen de réduire les coûts.
Source : The Information
Et vous ?
Quelles sont les implications de l’utilisation d’assistants vocaux IA dans notre vie quotidienne ?
Comment l’intégration de la technologie vocale et visuelle d’OpenAI pourrait-elle changer notre façon de travailler et d’apprendre ?
Quels défis OpenAI doit-il surmonter pour rivaliser avec les géants comme Google et Apple dans le domaine des assistants vocaux ?
En quoi l’approche d’OpenAI en matière de personnalisation de l’expérience utilisateur est-elle différente ou similaire à celle de ses concurrents ?
Quel impact la capacité de l’assistant vocal IA à comprendre des images et à générer une voix humaine pourrait-elle avoir sur les industries créatives et éducatives ?
Quelles précautions devraient être prises pour assurer la protection de la vie privée et des données personnelles dans l’utilisation des assistants vocaux IA ?
Voir aussi :
ChatGPT avec la capacité « de voir, entendre et parler » est désormais disponible pour tous les utilisateurs à titre gratuit : quel impact sur la vie privée et la sécurité des utilisateurs ?