OpenAI indique que la nouvelle fonction de reconnaissance d'images dans ChatGPT permet aux utilisateurs de télécharger une ou plusieurs images pour la conversation, en utilisant les modèles GPT-3.5 ou GPT-4. Dans unbillet de blog l'entreprise affirme que la fonction peut être utilisée pour une variété d'applications quotidiennes : de la recherche de ce qu'il y a pour le dîner en prenant des photos du réfrigérateur et du garde-manger, à la recherche de la raison pour laquelle votre gril ne démarre pas. L'entreprise précise également que les utilisateurs peuvent utiliser l'écran tactile de leur appareil pour entourer les parties de l'image sur lesquelles ils souhaitent que ChatGPT se concentre.
La partie chat vocal est assez familière : vous appuyez sur un bouton et prononcez votre question, ChatGPT la convertit en texte et l’envoie au grand modèle linguistique, reçoit une réponse en retour, la convertit à nouveau en parole et prononce la réponse à voix haute. Il semble que la plupart des assistants virtuels soient en train d’être reconstruits pour s’appuyer sur les LLM - OpenAI a juste une longueur d’avance. La fonction vocale « ouvre la voie à de nombreuses applications créatives et axées sur l'accessibilité », a déclaré OpenAI dans un billet de blog.
Envoyé par OpenAI
Les nouvelles fonctionnalités de ChatGPT pourraient poser des problèmes de confidentialité et de sécurité
Le fait qu'il soit possible de construire une voix synthétique capable avec seulement quelques secondes d'audio ouvre également la porte à toutes sortes de cas d'utilisation problématiques.
« Ces capacités présentent aussi de nouveaux risques, comme la possibilité pour des acteurs malveillants d'usurper l'identité de personnalités publiques ou de commettre des fraudes », explique l'entreprise dans son billet de blog annonçant les nouvelles fonctionnalités. OpenAI précise que le modèle n'est pas disponible pour une large utilisation pour cette raison précise ; il sera beaucoup plus contrôlé et limité à des cas d'utilisation spécifiques et à des partenariats.
Si l’on peut reconnaître que les nouvelles fonctionnalités déployées par OpenAI dans ChatrGPT sont une avancée majeure dans l’interface utilisateur, car ces dernières permettent une communication plus naturelle avec la machine, il est important de noter que ces nouvelles fonctionnalités pourraient par ailleurs poser des problèmes de confidentialité et de sécurité. Par exemple, les commandes vocales pourraient être enregistrées et stockées sans le consentement de l’utilisateur. En fin de compte, ces nouvelles fonctionnalités sont un pas en avant pour ChatGPT et l’IA conversationnelle en général, mais il est important que les utilisateurs soient conscients des avantages et des risques.
OpenAI a annoncé la disponibilité générale de son API GPT-4 en avril, l’entreprise avait précédemment présenté les capacités "multimodales" du modèle d'IA qui lui permettraient de traiter à la fois du texte et des images, mais la fonction d'image est restée largement interdite au public au cours d'un processus de test. Au lieu de cela, OpenAI s'est associée à Be My Eyes pour créer une application capable d'interpréter des photos de scènes pour les personnes aveugles.
Entre-temps, Microsoft a ajouté une capacité de reconnaissance d'images à Bing Chat, un assistant d'intelligence artificielle basé sur GPT-4, en juillet. Dans sa récente annonce de mise à jour de ChatGPT, OpenAI souligne plusieurs limites aux fonctionnalités étendues de ChatGPT, reconnaissant des problèmes qui vont du risque de confabulations visuelles (c'est-à-dire une mauvaise identification de quelque chose) à la reconnaissance imparfaite des langues autres que l'anglais par le modèle de vision.
L'entreprise affirme avoir procédé à des évaluations des risques « dans des domaines tels que l'extrémisme et la compétence scientifique » et avoir demandé l'avis des testeurs alpha, mais elle recommande toujours la prudence quant à son utilisation, en particulier dans des contextes spécialisés ou à fort enjeu tels que la recherche scientifique.
OpenAI a annoncé avoir pris des mesures techniques pour limiter considérablement la capacité de ChatGPT à analyser et à faire des déclarations directes sur les personnes, car ChatGPT n’est pas toujours précis et ces systèmes doivent respecter la vie privée des individus.
Source : OPenAI
Et vous ?
Quels sont les risques liés à l’utilisation de l’IA générative dans les systèmes de chat ?
Quels sont les avantages et les inconvénients de l’utilisation d’une voix synthétique capable d’usurper l’identité de personnalités publiques ?
Comment les services d’intelligence artificielle tels que Siri, Google Assistant et Alexa peuvent-ils garantir la confidentialité des utilisateurs tout en fournissant des informations utiles ?
Comment les mesures techniques prises par OpenAI pour limiter la possibilité de ChatGPT à analyser et à faire des déclarations directes sur les personnes peuvent-elles affecter l’expérience utilisateur ?
Voir aussi :
Comparaison entre ChatGPT et Google Translate : quel chatbot d'intelligence artificielle est le meilleur traducteur de langues ? ChatGPT arrive en tête devant Google Bard, Translate et Bing AI
ChatGPT d'OpenAI dans le collimateur de la FTC : l'agence veut déterminer si l'IA met en danger la réputation et les données des utilisateurs
ChatGPT génère un code informatique peu sûr, mais ne vous le dira pas à moins que vous ne le lui demandiez, les experts mettent en garde contre les risques d'une surconfiance en ChatGPT