IdentifiantMot de passe
Loading...
Mot de passe oublié ?Je m'inscris ! (gratuit)

Vous êtes nouveau sur Developpez.com ? Créez votre compte ou connectez-vous afin de pouvoir participer !

Vous devez avoir un compte Developpez.com et être connecté pour pouvoir participer aux discussions.

Vous n'avez pas encore de compte Developpez.com ? Créez-en un en quelques instants, c'est entièrement gratuit !

Si vous disposez déjà d'un compte et qu'il est bien activé, connectez-vous à l'aide du formulaire ci-dessous.

Identifiez-vous
Identifiant
Mot de passe
Mot de passe oublié ?
Créer un compte

L'inscription est gratuite et ne vous prendra que quelques instants !

Je m'inscris !

OpenAI développe un assistant vocal d'IA, se positionnant comme un concurrant direct de Google et d'Apple.
La technologie est capable de « voir, d'entendre et de parler », elle peut reconnaître des objets

Le , par Stéphane le calme

233PARTAGES

8  0 
OpenAI a récemment fait une avancée en développant un assistant vocal basé sur l’intelligence artificielle, se positionnant ainsi comme un concurrent direct de géants tels que Google et Apple. OpenAI se prépare à faire la démonstration d'une technologie qui parle aux gens (en utilisant le son ainsi que le texte) et qui reconnaît les objets et les images. Selon deux personnes qui ont vu la nouvelle IA, le développeur de ChatGPT a montré à certains clients quelques-unes de ces capacités, qui incluent un meilleur raisonnement logique que ses produits actuels.

Cette avancée ouvre la porte à des interactions plus riches, comme la possibilité de prendre une photo d’un monument lors d’un voyage et d’avoir des informations sur ses particularités, ou encore de demander de l’aide pour un problème de mathématiques en prenant en photo l’énoncé.


En septembre 2023, OpenAI a annoncé l’introduction de nouvelles capacités vocales et d’image pour ChatGPT, permettant aux utilisateurs de solliciter l’intelligence artificielle non seulement en tapant des phrases dans une zone de texte, mais aussi en parlant à haute voix ou en téléchargeant une photo.

L'entreprise a alors indiqué que la fonction pouvait être utilisée pour une variété d'applications quotidiennes : de la recherche de ce qu'il y a pour le dîner en prenant des photos du réfrigérateur et du garde-manger, à la recherche de la raison pour laquelle votre gril ne démarre pas. L'entreprise a également précisé que les utilisateurs pouvaient utiliser l'écran tactile de leur appareil pour entourer les parties de l'image sur lesquelles ils souhaitent que ChatGPT se concentre.

Citation Envoyé par OpenAI
Nous commençons à déployer de nouvelles capacités vocales et d'images dans ChatGPT. Elles offrent un nouveau type d'interface, plus intuitif, en vous permettant d'avoir une conversation vocale.

La voix et l'image vous offrent davantage de possibilités d'utiliser ChatGPT dans votre vie. Prenez une photo d'un point de repère lorsque vous voyagez et ayez une conversation en direct sur ce qui est intéressant à propos de ce point de repère.

Lorsque vous êtes à la maison, prenez des photos de votre réfrigérateur et de votre garde-manger pour savoir ce qu'il y a pour le dîner (et posez des questions complémentaires pour obtenir une recette étape par étape). Après le dîner, aidez votre enfant à résoudre un problème de mathématiques en prenant une photo, en entourant le problème et en lui demandant de vous donner des conseils.

Parlez à ChatGPT et demandez-lui de vous répondre

Vous pouvez désormais utiliser la voix pour engager une conversation avec votre assistant. Parlez-lui en déplacement, demandez-lui une histoire pour votre famille ou réglez un débat à table.

La nouvelle fonction vocale est alimentée par un nouveau modèle de synthèse vocale, capable de générer un son de type humain à partir d'un simple texte et de quelques secondes d'échantillon de parole. Nous avons collaboré avec des acteurs professionnels pour créer chacune des voix. Nous utilisons également Whisper, notre système de reconnaissance vocale open-source, pour transcrire vos paroles en texte.

Vous pouvez dorénavant montrer une ou plusieurs images à ChatGPT. Dépannez la raison pour laquelle votre gril ne démarre pas, explorez le contenu de votre réfrigérateur pour planifier un repas, ou analysez un graphique complexe pour des données liées au travail.

OpenAI à la conquête de l'industrie de l'assistant vocal

OpenAI considère que les assistants dotés de capacités visuelles et audio sont potentiellement aussi transformateurs que le smartphone. L'assistant pourrait théoriquement accomplir toute une série de tâches impossibles à réaliser aujourd'hui, telles que servir de tuteur à un étudiant qui travaille sur un devoir ou sur des problèmes de mathématiques, ou donner aux gens des informations sur leur environnement lorsqu'ils le demandent, comme traduire des panneaux ou expliquer comment réparer des problèmes de voiture.

La nouvelle technologie est trop volumineuse pour fonctionner sur des appareils personnels aujourd'hui, mais les clients pourraient à court terme utiliser la version basée sur l'informatique dématérialisée pour améliorer les fonctions que le logiciel d'OpenAI permet déjà, telles que les agents de service à la clientèle automatisés. Les fonctions audio du nouveau logiciel pourraient aider ces agents à mieux comprendre l'intonation de la voix des appelants ou à savoir s'ils sont sarcastiques lorsqu'ils formulent une demande, a déclaré l'une des personnes ayant connaissance du projet.

OpenAI dispose déjà d'un logiciel capable de transcrire l'audio et de convertir le texte en parole, mais ces fonctions sont disponibles via...
La fin de cet article est réservée aux abonnés. Soutenez le Club Developpez.com en prenant un abonnement pour que nous puissions continuer à vous proposer des publications.

Une erreur dans cette actualité ? Signalez-nous-la !

Avatar de Jules34
Membre émérite https://www.developpez.com
Le 14/05/2024 à 10:59
Citation Envoyé par _toma_ Voir le message
C'est nous qui nous sommes rendus esclaves de technologies abrutissantes et inutiles dont l'utilisation abusive a pour conséquence directe de, petit à petit, supprimer toute réflexion, tout esprit critique et toute satisfaction à réaliser une tâche longue ou complexe.

S'il y a 20 ans je ne comprenais pas la phrase "science sans conscience n'est que ruine de l'âme", je ne la comprends que trop bien aujourd'hui.
Entièrement d'accord avec vous !
1  0 
Avatar de jnspunk
Membre habitué https://www.developpez.com
Le 14/08/2024 à 12:20
Tous les outils sur cette planète peuvent être mal utilisés mais il y en a toujours qui vont se plaindre que l'IA puisse être mal utilisée. La bêtise en devient drole, mais c'est triste quelque part.
1  0 
Avatar de noremorse
Membre actif https://www.developpez.com
Le 24/02/2025 à 9:12
J’imagine que chatgpt et autres IA utilisent les infos provenant de la presse mainstream financée par l’état ainsi que Wikipedia pour faire sa propagande occidentale
1  0 
Avatar de _toma_
Membre éclairé https://www.developpez.com
Le 13/05/2024 à 18:49
Nous commençons à déployer de nouvelles capacités vocales et d'images dans ChatGPT. Elles offrent un nouveau type d'interface, plus intuitif, en vous permettant d'avoir une conversation vocale.

La voix et l'image vous offrent davantage de possibilités d'utiliser ChatGPT dans votre vie. Prenez une photo d'un point de repère lorsque vous voyagez et ayez une conversation en direct sur ce qui est intéressant à propos de ce point de repère.

Lorsque vous êtes à la maison, prenez des photos de votre réfrigérateur et de votre garde-manger pour savoir ce qu'il y a pour le dîner (et posez des questions complémentaires pour obtenir une recette étape par étape). Après le dîner, aidez votre enfant à résoudre un problème de mathématiques en prenant une photo, en entourant le problème et en lui demandant de vous donner des conseils.

Parlez à ChatGPT et demandez-lui de vous répondre

Vous pouvez désormais utiliser la voix pour engager une conversation avec votre assistant. Parlez-lui en déplacement, demandez-lui une histoire pour votre famille ou réglez un débat à table.

La nouvelle fonction vocale est alimentée par un nouveau modèle de synthèse vocale, capable de générer un son de type humain à partir d'un simple texte et de quelques secondes d'échantillon de parole. Nous avons collaboré avec des acteurs professionnels pour créer chacune des voix. Nous utilisons également Whisper, notre système de reconnaissance vocale open-source, pour transcrire vos paroles en texte.

Vous pouvez dorénavant montrer une ou plusieurs images à ChatGPT. Dépannez la raison pour laquelle votre gril ne démarre pas, explorez le contenu de votre réfrigérateur pour planifier un repas, ou analysez un graphique complexe pour des données liées au travail.
Est-ce qu'on nous proposera un jour des applications utiles/pertinentes de cette techno "révolutionnaire" ?
Si j'aime l'informatique c'est pas pour rien c'est que j'aime la technologie au sens large du terme. Mais plus on avance et moins je comprends le sens et l'utilité des technologies qui nous entourent.
Les thématiques de Terminator ou de 2001 l'odyssée de l'espace (combat homme/machine) sont dépassées depuis déjà pas mal de temps : les machines ne chercheront pas à nous asservir, c'est nous qui nous sommes rendus esclaves de technologies abrutissantes et inutiles dont l'utilisation abusive a pour conséquence directe de, petit à petit, supprimer toute réflexion, tout esprit critique et toute satisfaction à réaliser une tâche longue ou complexe.

S'il y a 20 ans je ne comprenais pas la phrase "science sans conscience n'est que ruine de l'âme", je ne la comprends que trop bien aujourd'hui.
0  0 
Avatar de Eye_Py_Ros
Membre régulier https://www.developpez.com
Le 21/05/2024 à 13:49
concernant le mauvais coté de l'IA. Nous risquons une crise identitaire.
La réplication, l'imitation en masse et le non respect de nos identités, risque de mettre à mal la société, une "crise de l'identité" ou les personnes seraient de moins en moins respecté.
Et dont le capitalisme userait, serait plus "violent" en ne respectant plus l'individu car copiable grâce à un genre de photocopieuse magique.
0  0 
Avatar de
https://www.developpez.com
Le 26/05/2024 à 15:09
Mon commentaire sera peut-être hors-sujet mais Open AI comme Copilot de MS a pompé des données pour retenir des idées, des codes sources, des puces de nouvelles générations et s'est affranchi des lois sur le copyright et les brevets matériels et logiciels au détriment des utilisateurs et professionnels. Je confirme donc qu'ils sont attaquables en procès pour le cas de Scarlett Johansson qui a vu sa voix devenir un fake pour les utilisateurs : Au minimum Open AI et MS ne respectent rien, pas même leur propres règles et leur propre parole. Peut-être Google aussi mais j'ai plus confiance en Google qu'en MS et Open AI bien qu'il faille toujours se méfier.
0  0 
Avatar de JackIsJack
Membre éclairé https://www.developpez.com
Le 03/08/2024 à 7:19
Là c'est un autre level sur l'impact sociétal possible...
0  0 
Avatar de Chouteau
Membre régulier https://www.developpez.com
Le 05/08/2024 à 13:24
Meme si a priori c'est une technologie spectaculaire, je ne peux m'empêcher de penser que les utilisations malveillantes qui vont en découler vont largement dépasser tout ce que l'on a pu connaitre.
Et que dire d'un robot qui rigole...
0  0 
Avatar de Jules34
Membre émérite https://www.developpez.com
Le 21/10/2024 à 11:02
Elle doit gérer les tensions entre sa mission déclarée, qui est de veiller à ce que l'intelligence artificielle générale profite à l'humanité, et son orientation de plus en plus commerciale.


C'est comme l'infomercial de Bill Gates sur les IPN, le loup déguisé en agneau.

Alors que le ChatGPT s'intègre de plus en plus profondément dans le travail et la vie de tous les jours
Dans la tête des PDG peut-être...
0  0 
Avatar de leaschaefer
Inactif https://www.developpez.com
Le 05/08/2025 à 8:36
Les bizarreries de GPT-4o montrent à quel point l’IA vocale reste encore en phase d’exploration. Le clonage accidentel de la voix de l’utilisateur ou les sons involontaires (cris, gémissements, respirations...) rappellent que la technologie, bien que puissante, n’est pas encore totalement maîtrisée dans des conditions réelles comme les environnements bruyants.

Malgré cela, l’IA multimodale avance à grands pas. Le fait que GPT-4o tente d’adapter son ton ou de "respirer" comme un humain est à la fois fascinant… et parfois un peu troublant. On assiste clairement à une tentative de rendre la machine plus "vivante", même si elle fait encore quelques faux pas.

Pour ceux qui découvrent ces technologies, il est toujours possible d’essayer Chat GPT pour se faire une idée du potentiel, sans forcément passer par les fonctions avancées ou payantes. Cela reste une belle porte d’entrée dans le monde de l’intelligence artificielle.
0  0