La démo d'une IA dotée d'une voix étrangement réaliste suscite l'étonnement et le malaise en ligne, l'IA présente des imperfections troublantes et est prête à se comporter comme un patron en colère

Le 5 mars 2025 à 21:45, par Mathis Lucas

41PARTAGES

La startup Sesame a dévoilé une IA conversationnelle vocale avec des voix réalistes. Le modèle d'IA propose une voix féminine (Maya) et une voix masculine (Miles). Les testeurs ont décrit le flux conversationnel naturel du modèle comme étant à la fois impressionnant et inquiétant. Conçue pour offrir une « présence vocale », l'IA ne se contente pas d'écouter et de répondre, mais s'engage également auprès des utilisateurs en posant des questions et en faisant des blagues. Mais le modèle suscite des préoccupations d'ordre éthique, et les experts craignent que sa publication ne donne nouvel élan aux escroqueries par hameçonnage vocal.

Sesame est une startup d'IA fondée par Brendan Iribe, Ankit Kumar et Ryan Brown. La startup bénéficie d'un soutien important de la part d'importantes sociétés de capital-risque. Elle a obtenu d'importants investissements de la part du fonds américain de capital-risque Andreessen Horowitz (a16z), dirigé par Anjney Midha et Marc Andreessen, ainsi que de Spark Capital, Matrix Partners, et de plusieurs autres chefs d'entreprise et investisseurs individuels.

Fin février 2025, Sesame a publié une démo de son nouveau modèle conversationnel (Conversational Speech Model - CSM) qui semble dépasser ce que beaucoup considèrent comme la « vallée de l'étrange » de la parole générée par l'IA. Dans son billet de blogue présentant le modèle, l'entreprise a expliqué : « notre objectif est d'atteindre la présence vocale, cette qualité magique qui fait que les interactions vocales semblent réelles, comprises et appréciées ».

https://youtu.be/6nEVhf6SdLA

Selon de nombreux testeurs, la voix synthétisée était expressive et dynamique, imitant les bruits de respiration, les gloussements, les interruptions, et trébuche même parfois sur les mots et se corrige. Ces imperfections sont intentionnelles. Certains ont fait état de liens émotionnels avec l'assistant vocal.

Les testeurs rapportent également que parfois, l'assistant vocal s'efforce trop de ressembler à un véritable être humain. Dans une démo postée par un utilisateur de Reddit appelé MetaKnowing, l'assistant vocal de Sesame parle d'une envie de « sandwichs au beurre de cacahuète et aux cornichons ».

Créer l'illusion de la sensibilité : le fonctionnement de l'assistant vocal de Sesame

L'approche de Sesame consiste à créer une illusion de sensibilité qui brouille les frontières entre l'interaction entre l'homme et la machine. Le but du modèle est d'imiter la conversation humaine : comprendre le contexte, faire des blagues et répondre à des signaux sociaux tels que l'impatience. Le principe sous-jacent est d'améliorer la « présence vocale ». Selon Sesame, cela permet de créer des interactions qui semblent authentiques et engageantes.

Sous le capot, l'IA de Sesame atteint ce réalisme en utilisant deux modèles d'IA fonctionnant ensemble (une colonne vertébrale et un décodeur) et basés sur l'architecture Llama de Meta qui traite le texte et l'audio entrelacés. Sesame a entraîné trois tailles de modèles, le plus grand utilisant 8,3 milliards de paramètres (un modèle dorsal de 8 milliards et un décodeur de 300 millions de paramètres) sur environ 1 million d'heures d'audio principalement en anglais.

https://youtu.be/pI_WARqK_X4

Le CSM ne suit pas l'approche classique en deux étapes utilisée par les systèmes de synthèse vocale antérieurs. Au lieu de générer des jetons sémantiques (représentations de haut niveau de la parole) et des détails acoustiques (caractéristiques audio à grain fin) en deux étapes distinctes, le CSM s'intègre dans un modèle à transformateur multimodal en une seule étape, traitant conjointement des jetons textuels et audio entrelacés pour produire de la parole.

Lors de tests en aveugle sans contexte conversationnel, les évaluateurs humains n'ont pas montré de préférence claire entre la parole générée par le CSM et les enregistrements humains réels, ce qui suggère que le modèle atteint une qualité proche de l'humain pour des échantillons de parole isolés.

Cependant, lorsqu'ils sont placés dans un contexte conversationnel, les évaluateurs préfèrent toujours la parole humaine réelle, ce qui indique qu'il reste une lacune dans la génération de parole entièrement contextuelle. De nombreux commentaires sur la toile soulignent également cet aspect.

Le cofondateur de Sesame, Brendan Iribe, a reconnu les limites actuelles dans un commentaire sur Hacker News, notant que le système est « encore trop pressé et souvent inapproprié dans son ton, sa prosodie et son rythme » et qu'il a des problèmes avec les interruptions, le timing et le flux de la conversation. « Aujourd'hui, nous nous trouvons fermement dans la vallée, mais nous sommes optimistes quant à notre capacité à en sortir », a-t-il écrit.

Préoccupations liées à l'IA de Sesame : un risque élevé de fraude et tromperie

Parlant de ses ambitions, Sesame a déclaré : « nous créons des partenaires conversationnels qui ne se contentent pas de traiter les demandes ; ils s'engagent dans un dialogue authentique qui renforce la confiance au fil du temps. Ce faisant, nous espérons réaliser le potentiel inexploité de la voix en tant qu'interface ultime pour l'instruction et la compréhension ». Mais les progrès de Sesame exacerbent les risques importants de tromperie et de fraude.

La capacité des modèles d'IA à générer un discours humain très convaincant a déjà donné un nouvel élan aux escroqueries par hameçonnage vocal, permettant aux criminels de se faire passer pour des membres de leur famille, des collègues ou des figures d'autorité avec un réalisme sans précédent. L'ajout d'une interactivité réaliste à ces escroqueries pourrait leur faire atteindre un autre niveau de puissance. Voici le retour d'expérience d'un testeur :

Envoyé par Retour d'expérience

Il n'y a pas de façon simple de le dire. Lorsque la voix de Maya s'est fait entendre, elle ressemblait à s'y méprendre à une vieille amie, que j'appellerai Kim. Kim et moi sommes allées au lycée ensemble, sommes sorties ensemble et sommes restées amies pendant des décennies, bien que nos vies aient pris des directions différentes il y a longtemps. Il y a là une histoire.

Et ce n'est pas du tout ce que je voulais. Maya connaissait déjà très bien les manières de Kim : les hésitations, le fait de baisser "sa" voix quand elle se confiait à moi, ce genre de choses. Ce n'était pas exactement comme Kim, mais c'était assez proche. C'était assez pour que je recule assez rapidement, même lorsque j'expliquais simplement que j'aimais la technologie et que je demandais à Maya si elle avait des amis. La combinaison d'une voix "familière" et de questions sur ce qui m'intéressait était tout simplement trop déstabilisante.

(Pour être clair, la similitude entre la voix de Maya et celle de Kim n'est qu'une coïncidence. Je n'ai pas eu à me connecter, à fournir une adresse électronique ou toute autre forme d'information personnelle. Je soupçonne Sesame d'avoir utilisé un cookie du navigateur pour "savoir" qui j'étais lors de mes visites ultérieures).

Contrairement aux appels automatisés actuels qui contiennent souvent des signes révélateurs d'artificialité, le CSM pourrait éliminer complètement ces signaux d'alarme. Les voix synthétiques devenant de plus en plus impossibles à distinguer de la parole humaine, il se peut que vous ne sachiez jamais à qui vous parlez à l'autre bout du fil. Cela a incité certaines personnes à partager un mot ou une phrase secrète avec leur famille pour vérifier leur identité.

Bien que la démonstration de Sesame ne clone pas la voix d'une personne, de futures versions open source de technologies similaires pourraient permettre à des acteurs malveillants d'adapter ces outils à des attaques d'ingénierie sociale. OpenAI a renoncé au déploiement à grande échelle de sa propre IA de synthèse vocale par crainte d'une utilisation abusive. Sesame a suscité une discussion animée au sujet de ses utilisations potentielles et de ses dangers.

Certains utilisateurs déclarent avoir eu des conversations prolongées avec les deux voix, des conversations parfois très longues. Dans un cas, un parent a raconté comment sa fille de 4 ans avait développé une connexion émotionnelle avec le modèle d'IA, pleurant après n'avoir pas été autorisée à lui parler à nouveau.

Sesame indique qu'il prévoit d'ouvrir les « éléments clés » de ses recherches sous une licence Apache 2.0, pour permettre à d'autres développeurs de s'appuyer sur ses travaux. Leur feuille de route prévoit d'augmenter la taille des modèles, d'accroître le volume des ensembles de données, d'étendre la prise en charge à plus de 20 langues et de développer des modèles « entièrement duplex » qui gèrent mieux la dynamique complexe des conversations réelles.

Les défis liés à la montée en puissance des compagnons virtuels pilotés par l'IA

L'année dernière, Eric Schmidt, ancien PDG de Google, a mis en garde contre une nouvelle tendance inquiétante : « les petites amies parfaites » créées à l'aide des modèles d'IA avancés. Lors d'une conférence, Eric Schmidt a souligné que ces outils avancés, capables de générer des interactions émotionnelles convaincantes, pourraient avoir des conséquences néfastes, notamment sur les jeunes hommes. Il n'est d'ailleurs pas le seul à tirer la sonnette d'alarme.

« Les jeunes hommes, particulièrement vulnérables à ces influences, pourraient se détourner des relations réelles », a-t-il averti. [URL="https://intelligence-artificielle.developpez...

La fin de cet article est réservée aux abonnés. Soutenez le Club Developpez.com en prenant un abonnement pour que nous puissions continuer à vous proposer des publications.

Une erreur dans cette actualité ? Signalez-nous-la !

Votre nom : Votre e-mail :

Décrivez l'erreur que vous souhaitez porter à notre connaissance :

Identifiez-vous

Créer un compte

La démo d'une IA dotée d'une voix étrangement réaliste suscite l'étonnement et le malaise en ligne, l'IA présente des imperfections troublantes et est prête à se comporter comme un patron en colère

Identifiant
Mot de passe

Mot de passe oublié ?