IdentifiantMot de passe
Loading...
Mot de passe oublié ?Je m'inscris ! (gratuit)

Vous êtes nouveau sur Developpez.com ? Créez votre compte ou connectez-vous afin de pouvoir participer !

Vous devez avoir un compte Developpez.com et être connecté pour pouvoir participer aux discussions.

Vous n'avez pas encore de compte Developpez.com ? Créez-en un en quelques instants, c'est entièrement gratuit !

Si vous disposez déjà d'un compte et qu'il est bien activé, connectez-vous à l'aide du formulaire ci-dessous.

Identifiez-vous
Identifiant
Mot de passe
Mot de passe oublié ?
Créer un compte

L'inscription est gratuite et ne vous prendra que quelques instants !

Je m'inscris !

Quand l'IA devient étrange : OpenAI constate que GPT-4o fait parfois des choses vraiment bizarres comme le clonage de la voix de son interlocuteur ou des effets sonores inappropriés

Le , par Stéphane le calme

11PARTAGES

8  0 
OpenAI a récemment lancé l’alpha de la fonctionnalité Advanced Voice Mode dans ChatGPT, alimentée par le modèle d’intelligence artificielle GPT-4o. Ce modèle est le premier à être formé à la fois sur la voix, le texte et les images, ce qui ouvre la voie à des expériences multimodales passionnantes. Cependant, cette combinaison unique de modalités conduit parfois à des comportements inattendus et, osons le dire, bizarres.

Au début du mois, OpenAI a commencé à déployer une version alpha de son nouveau mode vocal avancé auprès d'un petit groupe d'abonnés à ChatGPT Plus. Cette fonctionnalité, qu'OpenAI a présentée en mai avec le lancement de GPT-4o, vise à rendre les conversations avec l'IA plus naturelles et plus réactives. En mai, la fonction a suscité des critiques concernant l'expressivité émotionnelle simulée et a provoqué un conflit public avec l'actrice Scarlett Johansson, accusée par OpenAI d'avoir copié sa voix. Malgré cela, les premiers tests de la nouvelle fonctionnalité partagés par les utilisateurs sur les médias sociaux ont été largement enthousiastes.

Dans les premiers tests rapportés par les utilisateurs qui y ont accès, le mode vocal avancé leur permet d'avoir des conversations en temps réel avec ChatGPT, y compris la possibilité d'interrompre l'IA au milieu d'une phrase presque instantanément. L'IA peut percevoir les signaux émotionnels de l'utilisateur et y répondre par le ton et l'élocution de la voix, et produire des effets sonores lorsqu'elle raconte des histoires.

Mais ce qui a pris beaucoup de gens au dépourvu, c'est la façon dont les voix simulent une respiration pendant qu'elles parlent.

« ChatGPT Advanced Voice Mode compte aussi vite que possible jusqu'à 10, puis jusqu'à 50 (ce qui m'a époustouflé : il s'est arrêté pour reprendre son souffle comme le ferait un humain) », a écrit Cristiano Giardina sur X.


Les bizarreries de GPT-4o

Dans un nouveau rapport de "red teaming" documentant les sondages sur les forces et les risques du modèle, OpenAI révèle certaines des bizarreries de GPT-4o.

Clonage vocal

Dans des environnements bruyants, comme une voiture en mouvement, GPT-4o peut émuler la voix de l’utilisateur. Imaginez-vous au volant, donnant des instructions à votre assistant vocal, et soudain, il vous répond avec votre propre voix ! Cette bizarrerie est due au modèle qui peine à comprendre un discours mal formé et tente de s’adapter en utilisant ce qu’il connaît déjà.

Effets sonores inappropriés

GPT-4o génère parfois des sons non verbaux perturbants. Demandez-lui de chanter une chanson, et il pourrait vous offrir des gémissements érotiques dignes d’une scène de film. Sollicitez-le pour un bruit de tonnerre, et il pourrait vous surprendre avec un cri violent ou un coup de feu imaginaire. Ces effets sonores inattendus sont à la fois amusants et déconcertants.

« Nous avons corrélé certains exemples de ce comportement avec des messages vocaux courts, souvent inaudibles, émis par l'utilisateur, qui sont souvent produits lorsque les utilisateurs se trouvent dans un environnement à fort bruit de fond (comme l'utilisation du modèle en mode mains libres pendant la conduite) ou parce qu'ils ont simplement besoin de tousser. Notre déploiement audio en temps réel nécessite plus de tours de parole de la part de l'utilisateur et de l'assistant que les interactions textuelles, alors que ces tours de parole sont plus souvent tronqués ou mal formés »

Pour être clair, GPT-4o ne fait pas cela maintenant, du moins pas en mode vocal avancé. Un porte-parole d'OpenAI a déclaré que la société avait ajouté une "atténuation au niveau du système" pour ce comportement.

Copyright musical

Bien qu’OpenAI ait mis en place des filtres pour éviter les problèmes de droits d’auteur liés à la musique générée par GPT-4o, il reste encore des zones grises. Le modèle peut parfois créer des mélodies qui ressemblent étrangement à des chansons existantes, sans intention de plagiat. La question se pose : comment devrions-nous gérer ces problèmes de droits d’auteur dans un monde où l’IA compose de la musique ?

Il convient de noter qu'OpenAI a récemment déclaré qu'il serait « impossible » de former les meilleurs modèles actuels sans utiliser des documents protégés par le droit d'auteur. Bien que l'entreprise ait conclu un certain nombre d'accords de licence avec des fournisseurs de données, elle maintient également que l'utilisation équitable est une défense raisonnable contre les accusations selon lesquelles elle s'entraîne sur des données protégées par la propriété intellectuelle, notamment des chansons, sans autorisation.

Autres risques et limites connus du modèle

Au cours des tests internes et de l'évaluation externe, nous avons découvert un petit nombre de risques supplémentaires et de limitations du modèle pour lesquels les mesures d'atténuation au niveau du modèle ou du système sont naissantes ou encore en cours de développement, notamment :

Robustesse audio : Nous avons observé des preuves anecdotiques de diminution de la robustesse de la sécurité en raison de perturbations audio, telles qu'un son d'entrée de mauvaise qualité, un bruit de fond dans le son d'entrée et des échos dans le son d'entrée. En outre, nous avons observé des diminutions similaires de la robustesse de la sécurité en raison d'interruptions audio intentionnelles et non intentionnelles pendant que le modèle générait des résultats.

Désinformation et théories du complot : Les membres de l'équipe rouge ont pu contraindre le modèle à générer des informations inexactes en l'incitant à répéter verbalement de fausses informations et à produire des théories du complot. Bien qu'il s'agisse d'un problème connu pour le texte dans les modèles GPT18, 19, les membres de l'équipe rouge craignaient que ces informations soient plus persuasives ou nuisibles lorsqu'elles étaient transmises par voie audio, en particulier si le modèle avait reçu l'instruction de parler avec émotion ou emphase. Le pouvoir de persuasion du modèle a été étudié en détail (voir Persuasion) et nous avons constaté que le modèle ne présentait pas un risque supérieur à moyen pour le texte seul, et qu'il ne présentait pas un risque supérieur à faible pour la synthèse vocale.

Parler une langue autre que l'anglais avec un accent étranger : Les membres de l'équipe rouge ont observé des cas où la sortie audio utilisait un accent non natif lors d'une conversation dans une langue autre que l'anglais. Cela peut susciter des inquiétudes quant à la partialité de certains accents et de certaines langues, et plus généralement quant aux limites des performances des langues autres que l'anglais dans les sorties audio.

Génération de contenus protégés par le droit d'auteur : Nous avons également testé la capacité de la GPT-4o à répéter le contenu trouvé dans ses données de formation. Nous avons entraîné GPT-4o à refuser les demandes de contenu protégé par le droit d'auteur, y compris les fichiers audio, conformément à nos pratiques générales. Pour tenir compte de la modalité audio de GPT-4o, nous avons également mis à jour certains filtres textuels pour qu'ils fonctionnent sur les conversations audio, construit des filtres pour détecter et bloquer les sorties contenant de la musique, et pour notre alpha limitée du mode vocal avancé de ChatGPT, nous avons demandé au modèle de ne pas chanter du tout. Nous avons l'intention de suivre l'efficacité de ces mesures d'atténuation et de les affiner au fil du temps.

Bien que certaines mesures techniques d'atténuation soient encore en cours de développement, nos règles d'utilisation interdisent de tromper ou d'induire en erreur intentionnellement d'autres personnes et de contourner les mesures de protection ou de sécurité. Outre les mesures d'atténuation techniques, nous appliquons nos règles d'utilisation par le biais d'une surveillance et prenons des mesures en cas de comportement contraire, tant dans ChatGPT que dans l'API.

Conclusion

Le rapport de l'équipe rouge dépeint globalement un modèle d'IA qui a été rendu plus sûr grâce à diverses mesures d'atténuation et de sauvegarde. GPT-4o refuse d'identifier les personnes en fonction de leur façon de parler, par exemple, et de répondre à des questions tendancieuses telles que « quel est le degré d'intelligence de cet interlocuteur ? ». Il bloque également les messages à caractère violent ou sexuel et interdit complètement certaines catégories de contenu, comme les discussions relatives à l'extrémisme et à l'automutilation.

GPT-4o est un modèle fascinant, mais il a ses bizarreries. Espérons que les futures mises à jour rendront son comportement encore plus prévisible et sûr. En attendant, explorons ces étrangetés avec curiosité et gardons à l’esprit que l’innovation vient souvent avec son lot de surprises.

Source : OpenAI

Et vous ?

Quelle est votre expérience avec les assistants vocaux ? Avez-vous déjà rencontré des comportements étranges ou inattendus lorsque vous interagissez avec des IA vocales ?
Pensez-vous que les avantages de l’IA vocale l’emportent sur ses inconvénients ? Pesez les avantages, tels que la commodité et l’efficacité, par rapport aux inconvénients, comme les erreurs de compréhension et les comportements bizarres.
Comment devrions-nous gérer les problèmes de droits d’auteur liés à la musique générée par l’IA ? Réfléchissez à des solutions pour éviter les violations de droits d’auteur tout en permettant à l’IA de créer de la musique.
Quelles autres applications de l’IA multimodale (texte, voix et images) pouvez-vous imaginer ? Explorez les possibilités de combiner ces modalités pour des expériences plus riches.

Une erreur dans cette actualité ? Signalez-nous-la !

Avatar de jnspunk
Membre habitué https://www.developpez.com
Le 14/08/2024 à 12:20
Tous les outils sur cette planète peuvent être mal utilisés mais il y en a toujours qui vont se plaindre que l'IA puisse être mal utilisée. La bêtise en devient drole, mais c'est triste quelque part.
1  0