OpenAI développe un assistant vocal d'IA, se positionnant comme un concurrant direct de Google et d'Apple.

La technologie est capable de « voir, d'entendre et de parler », elle peut reconnaître des objets

Le 13 mai 2024 à 10:05, par Stéphane le calme

276PARTAGES

OpenAI développe un assistant vocal d'IA, se positionnant comme un concurrant direct de Google et d'Apple.
La technologie est capable de « voir, d'entendre et de parler », elle peut reconnaître des objets et aussi des images

OpenAI a récemment fait une avancée en développant un assistant vocal basé sur l’intelligence artificielle, se positionnant ainsi comme un concurrent direct de géants tels que Google et Apple. OpenAI se prépare à faire la démonstration d'une technologie qui parle aux gens (en utilisant le son ainsi que le texte) et qui reconnaît les objets et les images. Selon deux personnes qui ont vu la nouvelle IA, le développeur de ChatGPT a montré à certains clients quelques-unes de ces capacités, qui incluent un meilleur raisonnement logique que ses produits actuels.

Cette avancée ouvre la porte à des interactions plus riches, comme la possibilité de prendre une photo d’un monument lors d’un voyage et d’avoir des informations sur ses particularités, ou encore de demander de l’aide pour un problème de mathématiques en prenant en photo l’énoncé.

En septembre 2023, OpenAI a annoncé l’introduction de nouvelles capacités vocales et d’image pour ChatGPT, permettant aux utilisateurs de solliciter l’intelligence artificielle non seulement en tapant des phrases dans une zone de texte, mais aussi en parlant à haute voix ou en téléchargeant une photo.

L'entreprise a alors indiqué que la fonction pouvait être utilisée pour une variété d'applications quotidiennes : de la recherche de ce qu'il y a pour le dîner en prenant des photos du réfrigérateur et du garde-manger, à la recherche de la raison pour laquelle votre gril ne démarre pas. L'entreprise a également précisé que les utilisateurs pouvaient utiliser l'écran tactile de leur appareil pour entourer les parties de l'image sur lesquelles ils souhaitent que ChatGPT se concentre.

Envoyé par OpenAI

Nous commençons à déployer de nouvelles capacités vocales et d'images dans ChatGPT. Elles offrent un nouveau type d'interface, plus intuitif, en vous permettant d'avoir une conversation vocale.

La voix et l'image vous offrent davantage de possibilités d'utiliser ChatGPT dans votre vie. Prenez une photo d'un point de repère lorsque vous voyagez et ayez une conversation en direct sur ce qui est intéressant à propos de ce point de repère.

Lorsque vous êtes à la maison, prenez des photos de votre réfrigérateur et de votre garde-manger pour savoir ce qu'il y a pour le dîner (et posez des questions complémentaires pour obtenir une recette étape par étape). Après le dîner, aidez votre enfant à résoudre un problème de mathématiques en prenant une photo, en entourant le problème et en lui demandant de vous donner des conseils.

Parlez à ChatGPT et demandez-lui de vous répondre

Vous pouvez désormais utiliser la voix pour engager une conversation avec votre assistant. Parlez-lui en déplacement, demandez-lui une histoire pour votre famille ou réglez un débat à table.

La nouvelle fonction vocale est alimentée par un nouveau modèle de synthèse vocale, capable de générer un son de type humain à partir d'un simple texte et de quelques secondes d'échantillon de parole. Nous avons collaboré avec des acteurs professionnels pour créer chacune des voix. Nous utilisons également Whisper, notre système de reconnaissance vocale open-source, pour transcrire vos paroles en texte.

Vous pouvez dorénavant montrer une ou plusieurs images à ChatGPT. Dépannez la raison pour laquelle votre gril ne démarre pas, explorez le contenu de votre réfrigérateur pour planifier un repas, ou analysez un graphique complexe pour des données liées au travail.

OpenAI à la conquête de l'industrie de l'assistant vocal

OpenAI considère que les assistants dotés de capacités visuelles et audio sont potentiellement aussi transformateurs que le smartphone. L'assistant pourrait théoriquement accomplir toute une série de tâches impossibles à réaliser aujourd'hui, telles que servir de tuteur à un étudiant qui travaille sur un devoir ou sur des problèmes de mathématiques, ou donner aux gens des informations sur leur environnement lorsqu'ils le demandent, comme traduire des panneaux ou expliquer comment réparer des problèmes de voiture.

La nouvelle technologie est trop volumineuse pour fonctionner sur des appareils personnels aujourd'hui, mais les clients pourraient à court terme utiliser la version basée sur l'informatique dématérialisée pour améliorer les fonctions que le logiciel d'OpenAI permet déjà, telles que les agents de service à la clientèle automatisés. Les fonctions audio du nouveau logiciel pourraient aider ces agents à mieux comprendre l'intonation de la voix des appelants ou à savoir s'ils sont sarcastiques lorsqu'ils formulent une demande, a déclaré l'une des personnes ayant connaissance du projet.

OpenAI dispose déjà d'un logiciel capable de transcrire l'audio et de convertir le texte en parole, mais ces fonctions sont disponibles via des modèles d'IA conversationnelle distincts, alors que le nouveau modèle réunit ces fonctions. Le nouveau modèle multimodal comprend donc mieux les images et les sons, et il est plus rapide à utiliser que les modèles moins performants.

Microsoft, qui peut utiliser la technologie d'OpenAI à sa guise parce qu'il est le principal bailleur de fonds de la société, pourrait utiliser la nouvelle IA d'OpenAI pour améliorer son propre assistant vocal ou essayer de la rendre suffisamment compacte pour qu'elle puisse fonctionner sur de petits appareils, notamment des vêtements dotés de caméras frontales capables de filmer l'environnement du client.

The Information, qui a rapporté cette situation, ne dispose pas d'éléments pour savoir quand OpenAI mettra ces nouvelles fonctionnalités à la disposition de ses clients payants, mais le quotidien soutient que l'entreprise prévoit de les intégrer à la version gratuite de son chatbot, ChatGPT, s'appuyant sur les propos de l'une des personnes qui l'a utilisé. OpenAI vise à rendre le nouveau modèle d'IA qui alimente ces fonctionnalités moins cher à utiliser que le modèle le plus avancé qu'elle vend aujourd'hui, GPT-4 Turbo, a déclaré cette personne. Le nouveau modèle est également plus performant que le GPT-4 Turbo pour répondre à certains types de questions. Toutefois, le nouveau modèle peut encore commettre des erreurs, connues sous le nom d'hallucinations.

Cette technologie constitue une nouvelle étape dans la quête de Sam Altman, PDG d'OpenAI, qui souhaite développer une IA très réactive, à l'instar de l'assistant virtuel du film « Her » de Spike Jonze, et permettre aux assistants vocaux existants, tels que Siri d'Apple, d'être plus utiles. L'entreprise pourrait présenter en avant-première l'IA améliorée lors d'un événement dès lundi, ce qui l'aiderait à prendre de l'avance sur les nombreuses annonces d'IA faites par son rival Google plus tard dans la semaine, a déclaré l'une des personnes interrogées.

Considérations critiques sur l’assistant vocal IA d’OpenAI

Bien que l’assistant vocal IA d’OpenAI représente une avancée significative dans le domaine de l’intelligence artificielle, il est important de considérer certains aspects critiques de cette technologie. Premièrement, la question de la vie privée et de la sécurité des données est primordiale. Avec des appareils capables d’écouter et de répondre à nos commandes vocales, il est essentiel de s’assurer que les informations personnelles des utilisateurs sont protégées contre les abus et les fuites potentielles.

Deuxièmement, l’impact sur le marché du travail doit être pris en compte. L’automatisation et l’IA peuvent entraîner une réduction des emplois dans certains secteurs, et il est crucial de réfléchir à la manière dont la société peut s’adapter à ces changements. La formation et le développement de compétences dans des domaines résistants à l’automatisation deviennent alors une priorité.

Troisièmement, il y a un risque de dépendance accrue à la technologie. En rendant les interactions avec les appareils plus faciles et plus intuitives, les utilisateurs pourraient devenir excessivement dépendants de l’assistance IA, ce qui pourrait avoir des conséquences sur leur capacité à effectuer des tâches sans aide technologique.

Enfin, il est crucial de considérer l’accessibilité de ces technologies. Alors que les assistants vocaux IA peuvent améliorer la vie de nombreux utilisateurs, il est important de s’assurer que ces avancées bénéficient à tous, y compris aux personnes ayant des revenus plus faibles ou vivant dans des régions moins développées.

Ces considérations critiques ne visent pas à minimiser les réalisations d’OpenAI, mais plutôt à souligner l’importance d’une approche équilibrée et responsable dans le développement et le déploiement de technologies d’IA avancées. Il est essentiel que les progrès technologiques s’accompagnent d’une réflexion éthique et sociale approfondie pour garantir qu’ils servent le bien-être collectif et respectent les droits individuels.

Tarification échelonnée

OpenAI, qui pourrait générer des milliards de dollars de revenus cette année, prévoit également de lancer un nouveau modèle de tarification qui offrirait aux clients jusqu'à 50 % de réduction s'ils paient à l'avance pour réserver des jetons (les mots que les grands modèles de langage traitent ou génèrent), selon une personne qui s'est entretenue avec les dirigeants.

Actuellement, la startup propose principalement une tarification à la demande, facturant aux développeurs entre quelques centimes et 120 dollars pour chaque million de tokens générés par ses LLM. Certains gros clients bénéficient de remises sur le volume. Les clients de Microsoft Azure, Google Cloud et Amazon Web Services peuvent réduire leurs coûts en réservant à l'avance la capacité de leurs serveurs.

Avec une tarification plus souple, OpenAI pourrait mieux rivaliser avec ses concurrents développeurs de modèles, ainsi qu'avec les startups qui visent à aider les développeurs à exécuter des modèles open-source à moindre coût, connues sous le nom de revendeurs de serveurs d'IA ou de fournisseurs d'inférence. Leur souci de rentabilité a parfois conduit ces entreprises à proposer les mêmes LLM à des prix de plus en plus bas, voire inférieurs au prix de revient dans certains cas.

OpenAI a déjà proposé à ses développeurs un moyen de réduire les coûts avec Batch API, une interface de programmation d'applications lancée en avril qui permet aux développeurs de bénéficier de tarifs plus avantageux s'ils téléchargent des requêtes de modèles en masse et s'ils sont prêts à attendre jusqu'à 24 heures pour obtenir des réponses. Pour leur part, les revendeurs de serveurs d'IA tels que Together AI et Anyscale affirment que l'exécution de modèles open-source sur leurs logiciels est un moyen de réduire les coûts.

Source : The Information

Et vous ?

Quelles sont les implications de l’utilisation d’assistants vocaux IA dans notre vie quotidienne ?

Comment l’intégration de la technologie vocale et visuelle d’OpenAI pourrait-elle changer notre façon de travailler et d’apprendre ?

Quels défis OpenAI doit-il surmonter pour rivaliser avec les géants comme Google et Apple dans le domaine des assistants vocaux ?

En quoi l’approche d’OpenAI en matière de personnalisation de l’expérience utilisateur est-elle différente ou similaire à celle de ses concurrents ?

Quel impact la capacité de l’assistant vocal IA à comprendre des images et à générer une voix humaine pourrait-elle avoir sur les industries créatives et éducatives ?

Quelles précautions devraient être prises pour assurer la protection de la vie privée et des données personnelles dans l’utilisation des assistants vocaux IA ?

Voir aussi :

ChatGPT avec la capacité « de voir, entendre et parler » est désormais disponible pour tous les utilisateurs à titre gratuit : quel impact sur la vie privée et la sécurité des utilisateurs ?

Vous avez lu gratuitement 2 165 articles depuis plus d'un an.
Soutenez le club developpez.com en souscrivant un abonnement pour que nous puissions continuer à vous proposer des publications.

Une erreur dans cette actualité ? Signalez-nous-la !

Votre nom : Votre e-mail :

Décrivez l'erreur que vous souhaitez porter à notre connaissance :

Identifiez-vous

Créer un compte

OpenAI développe un assistant vocal d'IA, se positionnant comme un concurrant direct de Google et d'Apple.

La technologie est capable de « voir, d'entendre et de parler », elle peut reconnaître des objets

Identifiant
Mot de passe

Mot de passe oublié ?

Identifiez-vous

Créer un compte

OpenAI développe un assistant vocal d'IA, se positionnant comme un concurrant direct de Google et d'Apple. La technologie est capable de « voir, d'entendre et de parler », elle peut reconnaître des objets

OpenAI développe un assistant vocal d'IA, se positionnant comme un concurrant direct de Google et d'Apple.

La technologie est capable de « voir, d'entendre et de parler », elle peut reconnaître des objets