
Cette avancée ouvre la porte à des interactions plus riches, comme la possibilité de prendre une photo d’un monument lors d’un voyage et d’avoir des informations sur ses particularités, ou encore de demander de l’aide pour un problème de mathématiques en prenant en photo l’énoncé.
En septembre 2023, OpenAI a annoncé l’introduction de nouvelles capacités vocales et d’image pour ChatGPT, permettant aux utilisateurs de solliciter l’intelligence artificielle non seulement en tapant des phrases dans une zone de texte, mais aussi en parlant à haute voix ou en téléchargeant une photo.
L'entreprise a alors indiqué que la fonction pouvait être utilisée pour une variété d'applications quotidiennes : de la recherche de ce qu'il y a pour le dîner en prenant des photos du réfrigérateur et du garde-manger, à la recherche de la raison pour laquelle votre gril ne démarre pas. L'entreprise a également précisé que les utilisateurs pouvaient utiliser l'écran tactile de leur appareil pour entourer les parties de l'image sur lesquelles ils souhaitent que ChatGPT se concentre.

OpenAI à la conquête de l'industrie de l'assistant vocal
OpenAI considère que les assistants dotés de capacités visuelles et audio sont potentiellement aussi transformateurs que le smartphone. L'assistant pourrait théoriquement accomplir toute une série de tâches impossibles à réaliser aujourd'hui, telles que servir de tuteur à un étudiant qui travaille sur un devoir ou sur des problèmes de mathématiques, ou donner aux gens des informations sur leur environnement lorsqu'ils le demandent, comme traduire des panneaux ou expliquer comment réparer des problèmes de voiture.
La nouvelle technologie est trop volumineuse pour fonctionner sur des appareils personnels aujourd'hui, mais les clients pourraient à court terme utiliser la version basée sur l'informatique dématérialisée pour améliorer les fonctions que le logiciel d'OpenAI permet déjà, telles que les agents de service à la clientèle automatisés. Les fonctions audio du nouveau logiciel pourraient aider ces agents à mieux comprendre l'intonation de la voix des appelants ou à savoir s'ils sont sarcastiques lorsqu'ils formulent une demande, a déclaré l'une des personnes ayant connaissance du projet.
OpenAI dispose déjà d'un logiciel capable de transcrire l'audio et de convertir le texte en parole, mais ces fonctions sont disponibles via des modèles d'IA conversationnelle distincts, alors que le nouveau modèle réunit ces fonctions. Le nouveau modèle multimodal comprend donc mieux les images et les sons, et il est plus rapide à utiliser que les modèles moins performants.
Microsoft, qui peut utiliser la technologie d'OpenAI à sa guise parce qu'il est le principal bailleur de fonds de la société, pourrait utiliser la nouvelle IA d'OpenAI pour améliorer son propre assistant vocal ou essayer de la rendre suffisamment compacte pour qu'elle puisse fonctionner sur de petits appareils, notamment des vêtements dotés de caméras frontales capables de filmer l'environnement du client.
The Information, qui a rapporté cette situation, ne dispose pas d'éléments pour savoir quand OpenAI mettra ces nouvelles fonctionnalités à la disposition de ses clients payants, mais le quotidien soutient que l'entreprise prévoit de les intégrer à la version gratuite de son chatbot, ChatGPT, s'appuyant sur les propos de l'une des personnes qui l'a utilisé. OpenAI vise à rendre le nouveau modèle d'IA qui alimente ces fonctionnalités moins cher à utiliser que le modèle le plus avancé qu'elle vend aujourd'hui, GPT-4 Turbo, a déclaré cette personne. Le nouveau modèle est également plus performant que le GPT-4 Turbo pour répondre à certains types de questions. Toutefois, le nouveau modèle peut encore commettre des erreurs, connues sous le nom d'hallucinations.
Cette technologie constitue une nouvelle étape dans la quête de Sam Altman, PDG d'OpenAI, qui souhaite développer une IA très réactive, à l'instar de l'assistant virtuel du film « Her » de Spike Jonze, et permettre aux assistants vocaux existants, tels que Siri d'Apple, d'être plus utiles. L'entreprise pourrait présenter en avant-première l'IA améliorée lors d'un événement dès lundi, ce qui l'aiderait à prendre de l'avance sur les nombreuses annonces d'IA faites par son rival Google plus tard dans la semaine, a déclaré l'une des personnes interrogées.
Considérations critiques sur l’assistant vocal IA d’OpenAI
Bien que l’assistant vocal IA d’OpenAI représente une avancée significative dans le domaine de l’intelligence artificielle, il est important de considérer certains aspects critiques de cette technologie. Premièrement, la question de la vie privée et de la sécurité des données est primordiale. Avec des appareils capables d’écouter et de répondre à nos commandes vocales, il est essentiel de s’assurer que les informations personnelles des utilisateurs sont protégées contre les abus et les fuites potentielles.
Deuxièmement, l’impact sur le marché du travail doit être pris en compte. L’automatisation et l’IA peuvent entraîner une réduction des emplois dans certains secteurs, et il est crucial de réfléchir à la manière dont la société peut s’adapter à ces changements. La formation et le développement de compétences dans des domaines résistants à l’automatisation deviennent alors une priorité.
Troisièmement, il y a un risque de dépendance accrue à la technologie. En rendant les interactions avec les appareils plus faciles et plus intuitives, les utilisateurs pourraient devenir excessivement dépendants de l’assistance IA, ce qui pourrait avoir des conséquences sur leur capacité à effectuer des tâches sans aide technologique.
Enfin, il est crucial de considérer l’accessibilité de ces technologies. Alors que les assistants vocaux IA peuvent améliorer la vie de nombreux utilisateurs, il est important de s’assurer que ces avancées bénéficient à tous, y compris aux personnes ayant des revenus...
La fin de cet article est réservée aux abonnés. Soutenez le Club Developpez.com en prenant un abonnement pour que nous puissions continuer à vous proposer des publications.