ChatGPT peut maintenant « voir, entendre et parler », selon OpenAI,

Mais les nouvelles fonctionnalités soulèvent des questions de confidentialité et de sécurité

Le 26 septembre 2023 à 07:13, par Bruno

264PARTAGES

OpenAI a déployé une nouvelle version de ChatGPT qui permet aux utilisateurs de solliciter l’intelligence artificielle non seulement en tapant des phrases dans une zone de texte, mais aussi en parlant à haute voix ou en téléchargeant une photo. Les nouvelles fonctionnalités permettront au chatbot viral d'avoir des conversations vocales avec les utilisateurs et d'interagir avec des images, le rapprochant ainsi des assistants d'intelligence artificielle (IA) populaires tels que Siri d'Apple. Les nouvelles fonctionnalités de ChatGPT pourraient poser des problèmes de confidentialité et de sécurité

OpenAI indique que la nouvelle fonction de reconnaissance d'images dans ChatGPT permet aux utilisateurs de télécharger une ou plusieurs images pour la conversation, en utilisant les modèles GPT-3.5 ou GPT-4. Dans unbillet de blog l'entreprise affirme que la fonction peut être utilisée pour une variété d'applications quotidiennes : de la recherche de ce qu'il y a pour le dîner en prenant des photos du réfrigérateur et du garde-manger, à la recherche de la raison pour laquelle votre gril ne démarre pas. L'entreprise précise également que les utilisateurs peuvent utiliser l'écran tactile de leur appareil pour entourer les parties de l'image sur lesquelles ils souhaitent que ChatGPT se concentre.

La partie chat vocal est assez familière : vous appuyez sur un bouton et prononcez votre question, ChatGPT la convertit en texte et l’envoie au grand modèle linguistique, reçoit une réponse en retour, la convertit à nouveau en parole et prononce la réponse à voix haute. Il semble que la plupart des assistants virtuels soient en train d’être reconstruits pour s’appuyer sur les LLM - OpenAI a juste une longueur d’avance. La fonction vocale « ouvre la voie à de nombreuses applications créatives et axées sur l'accessibilité », a déclaré OpenAI dans un billet de blog.

Envoyé par OpenAI

Nous commençons à déployer de nouvelles capacités vocales et d'images dans ChatGPT. Elles offrent un nouveau type d'interface, plus intuitif, en vous permettant d'avoir une conversation vocale.

La voix et l'image vous offrent davantage de possibilités d'utiliser ChatGPT dans votre vie. Prenez une photo d'un point de repère lorsque vous voyagez et ayez une conversation en direct sur ce qui est intéressant à propos de ce point de repère.

Lorsque vous êtes à la maison, prenez des photos de votre réfrigérateur et de votre garde-manger pour savoir ce qu'il y a pour le dîner (et posez des questions complémentaires pour obtenir une recette étape par étape). Après le dîner, aidez votre enfant à résoudre un problème de mathématiques en prenant une photo, en entourant le problème et en lui demandant de vous donner des conseils.

Parlez à ChatGPT et demandez-lui de vous répondre

Vous pouvez désormais utiliser la voix pour engager une conversation avec votre assistant. Parlez-lui en déplacement, demandez-lui une histoire pour votre famille ou réglez un débat à table.

La nouvelle fonction vocale est alimentée par un nouveau modèle de synthèse vocale, capable de générer un son de type humain à partir d'un simple texte et de quelques secondes d'échantillon de parole. Nous avons collaboré avec des acteurs professionnels pour créer chacune des voix. Nous utilisons également Whisper, notre système de reconnaissance vocale open-source, pour transcrire vos paroles en texte.

Vous pouvez dorénavant montrer une ou plusieurs images à ChatGPT. Dépannez la raison pour laquelle votre gril ne démarre pas, explorez le contenu de votre réfrigérateur pour planifier un repas, ou analysez un graphique complexe pour des données liées au travail.

La compréhension des images est assurée par les modèles multimodaux GPT-3.5 et GPT-4. Ces modèles appliquent leurs compétences de raisonnement linguistique à un large éventail d'images, telles que des photographies, des captures d'écran et des documents contenant à la fois du texte et des images.

Les utilisateurs des versions Plus et Enterprise auront accès à la voix et aux images dans les deux prochaines semaines.

Près d'un an après le lancement initial de ChatGPT, OpenAI semble toujours essayer de trouver comment donner à son robot plus de fonctionnalités et de capacités sans créer de nouveaux problèmes et inconvénients. Avec ces versions, l'entreprise a tenté de trouver une solution en limitant délibérément les possibilités de ses nouveaux modèles. Mais cette approche ne fonctionnera pas éternellement. À mesure que de plus en plus de personnes utilisent la commande vocale et la recherche d'images, et que ChatGPT se rapproche d'un assistant virtuel véritablement multimodal et utile, il sera de plus en plus difficile de contrôler ses limites.

Les nouvelles fonctionnalités de ChatGPT pourraient poser des problèmes de confidentialité et de sécurité

Le fait qu'il soit possible de construire une voix synthétique capable avec seulement quelques secondes d'audio ouvre également la porte à toutes sortes de cas d'utilisation problématiques.

« Ces capacités présentent aussi de nouveaux risques, comme la possibilité pour des acteurs malveillants d'usurper l'identité de personnalités publiques ou de commettre des fraudes », explique l'entreprise dans son billet de blog annonçant les nouvelles fonctionnalités. OpenAI précise que le modèle n'est pas disponible pour une large utilisation pour cette raison précise ; il sera beaucoup plus contrôlé et limité à des cas d'utilisation spécifiques et à des partenariats.

Si l’on peut reconnaître que les nouvelles fonctionnalités déployées par OpenAI dans ChatrGPT sont une avancée majeure dans l’interface utilisateur, car ces dernières permettent une communication plus naturelle avec la machine, il est important de noter que ces nouvelles fonctionnalités pourraient par ailleurs poser des problèmes de confidentialité et de sécurité. Par exemple, les commandes vocales pourraient être enregistrées et stockées sans le consentement de l’utilisateur. En fin de compte, ces nouvelles fonctionnalités sont un pas en avant pour ChatGPT et l’IA conversationnelle en général, mais il est important que les utilisateurs soient conscients des avantages et des risques.

OpenAI a annoncé la disponibilité générale de son API GPT-4 en avril, l’entreprise avait précédemment présenté les capacités "multimodales" du modèle d'IA qui lui permettraient de traiter à la fois du texte et des images, mais la fonction d'image est restée largement interdite au public au cours d'un processus de test. Au lieu de cela, OpenAI s'est associée à Be My Eyes pour créer une application capable d'interpréter des photos de scènes pour les personnes aveugles.

Entre-temps, Microsoft a ajouté une capacité de reconnaissance d'images à Bing Chat, un assistant d'intelligence artificielle basé sur GPT-4, en juillet. Dans sa récente annonce de mise à jour de ChatGPT, OpenAI souligne plusieurs limites aux fonctionnalités étendues de ChatGPT, reconnaissant des problèmes qui vont du risque de confabulations visuelles (c'est-à-dire une mauvaise identification de quelque chose) à la reconnaissance imparfaite des langues autres que l'anglais par le modèle de vision.

L'entreprise affirme avoir procédé à des évaluations des risques « dans des domaines tels que l'extrémisme et la compétence scientifique » et avoir demandé l'avis des testeurs alpha, mais elle recommande toujours la prudence quant à son utilisation, en particulier dans des contextes spécialisés ou à fort enjeu tels que la recherche scientifique.

OpenAI a annoncé avoir pris des mesures techniques pour limiter considérablement la capacité de ChatGPT à analyser et à faire des déclarations directes sur les personnes, car ChatGPT n’est pas toujours précis et ces systèmes doivent respecter la vie privée des individus.

Source : OPenAI

Et vous ?

Quels sont les risques liés à l’utilisation de l’IA générative dans les systèmes de chat ?

Quels sont les avantages et les inconvénients de l’utilisation d’une voix synthétique capable d’usurper l’identité de personnalités publiques ?

Comment les services d’intelligence artificielle tels que Siri, Google Assistant et Alexa peuvent-ils garantir la confidentialité des utilisateurs tout en fournissant des informations utiles ?

Comment les mesures techniques prises par OpenAI pour limiter la possibilité de ChatGPT à analyser et à faire des déclarations directes sur les personnes peuvent-elles affecter l’expérience utilisateur ?

Voir aussi :

Comparaison entre ChatGPT et Google Translate : quel chatbot d'intelligence artificielle est le meilleur traducteur de langues ? ChatGPT arrive en tête devant Google Bard, Translate et Bing AI

ChatGPT d'OpenAI dans le collimateur de la FTC : l'agence veut déterminer si l'IA met en danger la réputation et les données des utilisateurs

ChatGPT génère un code informatique peu sûr, mais ne vous le dira pas à moins que vous ne le lui demandiez, les experts mettent en garde contre les risques d'une surconfiance en ChatGPT

Vous avez lu gratuitement 145 articles depuis plus d'un an.
Soutenez le club developpez.com en souscrivant un abonnement pour que nous puissions continuer à vous proposer des publications.

Une erreur dans cette actualité ? Signalez-nous-la !

Votre nom : Votre e-mail :

Décrivez l'erreur que vous souhaitez porter à notre connaissance :

Identifiez-vous

Créer un compte

ChatGPT peut maintenant « voir, entendre et parler », selon OpenAI,

Mais les nouvelles fonctionnalités soulèvent des questions de confidentialité et de sécurité

Identifiant
Mot de passe

Mot de passe oublié ?

Identifiez-vous

Créer un compte

ChatGPT peut maintenant « voir, entendre et parler », selon OpenAI, Mais les nouvelles fonctionnalités soulèvent des questions de confidentialité et de sécurité

ChatGPT peut maintenant « voir, entendre et parler », selon OpenAI,

Mais les nouvelles fonctionnalités soulèvent des questions de confidentialité et de sécurité