Quand l'IA devient étrange : OpenAI constate que GPT-4o fait parfois des choses vraiment bizarres comme le clonage de la voix de son interlocuteur ou des effets sonores inappropriés

Le 11 août 2024 à 19:06, par Stéphane le calme

95PARTAGES

OpenAI a récemment lancé l’alpha de la fonctionnalité Advanced Voice Mode dans ChatGPT, alimentée par le modèle d’intelligence artificielle GPT-4o. Ce modèle est le premier à être formé à la fois sur la voix, le texte et les images, ce qui ouvre la voie à des expériences multimodales passionnantes. Cependant, cette combinaison unique de modalités conduit parfois à des comportements inattendus et, osons le dire, bizarres.

Au début du mois, OpenAI a commencé à déployer une version alpha de son nouveau mode vocal avancé auprès d'un petit groupe d'abonnés à ChatGPT Plus. Cette fonctionnalité, qu'OpenAI a présentée en mai avec le lancement de GPT-4o, vise à rendre les conversations avec l'IA plus naturelles et plus réactives. En mai, la fonction a suscité des critiques concernant l'expressivité émotionnelle simulée et a provoqué un conflit public avec l'actrice Scarlett Johansson, accusée par OpenAI d'avoir copié sa voix. Malgré cela, les premiers tests de la nouvelle fonctionnalité partagés par les utilisateurs sur les médias sociaux ont été largement enthousiastes.

Dans les premiers tests rapportés par les utilisateurs qui y ont accès, le mode vocal avancé leur permet d'avoir des conversations en temps réel avec ChatGPT, y compris la possibilité d'interrompre l'IA au milieu d'une phrase presque instantanément. L'IA peut percevoir les signaux émotionnels de l'utilisateur et y répondre par le ton et l'élocution de la voix, et produire des effets sonores lorsqu'elle raconte des histoires.

Mais ce qui a pris beaucoup de gens au dépourvu, c'est la façon dont les voix simulent une respiration pendant qu'elles parlent.

« ChatGPT Advanced Voice Mode compte aussi vite que possible jusqu'à 10, puis jusqu'à 50 (ce qui m'a époustouflé : il s'est arrêté pour reprendre son souffle comme le ferait un humain) », a écrit Cristiano Giardina sur X.

Les bizarreries de GPT-4o

Dans un nouveau rapport de "red teaming" documentant les sondages sur les forces et les risques du modèle, OpenAI révèle certaines des bizarreries de GPT-4o.

Clonage vocal

Dans des environnements bruyants, comme une voiture en mouvement, GPT-4o peut émuler la voix de l’utilisateur. Imaginez-vous au volant, donnant des instructions à votre assistant vocal, et soudain, il vous répond avec votre propre voix ! Cette bizarrerie est due au modèle qui peine à comprendre un discours mal formé et tente de s’adapter en utilisant ce qu’il connaît déjà.

Effets sonores inappropriés

GPT-4o génère parfois des sons non verbaux perturbants. Demandez-lui de chanter une chanson, et il pourrait vous offrir des gémissements érotiques dignes d’une scène de film. Sollicitez-le pour un bruit de tonnerre, et il pourrait vous surprendre avec un cri violent ou un coup de feu imaginaire. Ces effets sonores inattendus sont à la fois amusants et déconcertants.

« Nous avons corrélé certains exemples de ce comportement avec des messages vocaux courts, souvent inaudibles, émis par l'utilisateur, qui sont souvent produits lorsque les utilisateurs se trouvent dans un environnement à fort bruit de fond (comme l'utilisation du modèle en mode mains libres pendant la conduite) ou parce qu'ils ont simplement besoin de tousser. Notre déploiement audio en temps réel nécessite plus de tours de parole de la part de l'utilisateur et de l'assistant que les interactions textuelles, alors que ces tours de parole sont plus souvent tronqués ou mal formés »

Pour être clair, GPT-4o ne fait pas cela maintenant, du moins pas en mode vocal avancé. Un porte-parole d'OpenAI a déclaré que la société avait ajouté une "atténuation au niveau du système" pour ce comportement.

Copyright musical

Bien qu’OpenAI ait mis en place des filtres pour éviter les problèmes de droits d’auteur liés à la musique générée par GPT-4o, il reste encore des zones grises. Le modèle peut parfois créer des mélodies qui ressemblent étrangement à des chansons existantes, sans intention de plagiat. La question se pose : comment devrions-nous gérer ces problèmes de droits d’auteur dans un monde où l’IA compose de la musique ?

Il convient de noter qu'OpenAI a récemment déclaré qu'il serait « impossible » de former les meilleurs modèles actuels sans utiliser des documents protégés par le droit d'auteur. Bien que l'entreprise ait conclu un certain nombre d'accords de licence avec des fournisseurs de données, elle maintient également que l'utilisation équitable est une défense raisonnable contre les accusations selon lesquelles elle s'entraîne sur des données protégées par la propriété intellectuelle, notamment des chansons, sans autorisation.

Autres risques et limites connus du modèle

Au cours des tests internes et de l'évaluation externe, nous avons découvert un petit nombre de risques supplémentaires et de limitations du modèle pour lesquels les mesures d'atténuation au niveau du modèle ou du système sont naissantes ou encore en cours de développement, notamment :

Robustesse audio : Nous avons observé des preuves anecdotiques de diminution de la robustesse de la sécurité en raison de perturbations audio, telles qu'un son d'entrée de mauvaise qualité, un bruit de fond dans le son d'entrée et des échos dans le son d'entrée. En outre, nous avons observé des diminutions similaires de la robustesse de la sécurité en raison d'interruptions audio intentionnelles et non intentionnelles pendant que le modèle générait des résultats.

Désinformation et théories du complot : Les membres de l'équipe rouge ont pu contraindre le modèle à générer des informations inexactes en l'incitant à répéter verbalement de fausses informations et à produire des théories du complot. Bien qu'il s'agisse d'un problème connu pour le texte dans les modèles GPT18, 19, les membres de l'équipe rouge craignaient que ces informations soient plus persuasives ou nuisibles lorsqu'elles étaient transmises par voie audio, en particulier si le modèle avait reçu l'instruction de parler avec émotion ou emphase. Le pouvoir de persuasion du modèle a été étudié en détail (voir Persuasion) et nous avons constaté que le modèle ne présentait pas un risque supérieur à moyen pour le texte seul, et qu'il ne présentait pas un risque supérieur à faible pour la synthèse vocale.

Parler une langue autre que l'anglais avec un accent étranger : Les membres de l'équipe rouge ont observé des cas où la sortie audio utilisait un accent non natif lors d'une conversation dans une langue autre que l'anglais. Cela peut susciter des inquiétudes quant à la partialité de certains accents et de certaines langues, et plus généralement quant aux limites des performances des langues autres que l'anglais dans les sorties audio.

Génération de contenus protégés par le droit d'auteur : Nous avons également testé la...

La fin de cet article est réservée aux abonnés. Soutenez le Club Developpez.com en prenant un abonnement pour que nous puissions continuer à vous proposer des publications.

Une erreur dans cette actualité ? Signalez-nous-la !

Votre nom : Votre e-mail :

Décrivez l'erreur que vous souhaitez porter à notre connaissance :

Identifiez-vous

Créer un compte

Quand l'IA devient étrange : OpenAI constate que GPT-4o fait parfois des choses vraiment bizarres comme le clonage de la voix de son interlocuteur ou des effets sonores inappropriés

Identifiant
Mot de passe

Mot de passe oublié ?