
La startup Sesame a dévoilé une IA conversationnelle vocale avec des voix réalistes. Le modèle d'IA propose une voix féminine (Maya) et une voix masculine (Miles). Les testeurs ont décrit le flux conversationnel naturel du modèle comme étant à la fois impressionnant et inquiétant. Conçue pour offrir une « présence vocale », l'IA ne se contente pas d'écouter et de répondre, mais s'engage également auprès des utilisateurs en posant des questions et en faisant des blagues. Mais le modèle suscite des préoccupations d'ordre éthique, et les experts craignent que sa publication ne donne nouvel élan aux escroqueries par hameçonnage vocal.
Sesame est une startup d'IA fondée par Brendan Iribe, Ankit Kumar et Ryan Brown. La startup bénéficie d'un soutien important de la part d'importantes sociétés de capital-risque. Elle a obtenu d'importants investissements de la part du fonds américain de capital-risque Andreessen Horowitz (a16z), dirigé par Anjney Midha et Marc Andreessen, ainsi que de Spark Capital, Matrix Partners, et de plusieurs autres chefs d'entreprise et investisseurs individuels.
Fin février 2025, Sesame a publié une démo de son nouveau modèle conversationnel (Conversational Speech Model - CSM) qui semble dépasser ce que beaucoup considèrent comme la « vallée de l'étrange » de la parole générée par l'IA. Dans son billet de blogue présentant le modèle, l'entreprise a expliqué : « notre objectif est d'atteindre la présence vocale, cette qualité magique qui fait que les interactions vocales semblent réelles, comprises et appréciées ».
Selon de nombreux testeurs, la voix synthétisée était expressive et dynamique, imitant les bruits de respiration, les gloussements, les interruptions, et trébuche même parfois sur les mots et se corrige. Ces imperfections sont intentionnelles. Certains ont fait état de liens émotionnels avec l'assistant vocal.
Les testeurs rapportent également que parfois, l'assistant vocal s'efforce trop de ressembler à un véritable être humain. Dans une démo postée par un utilisateur de Reddit appelé MetaKnowing, l'assistant vocal de Sesame parle d'une envie de « sandwichs au beurre de cacahuète et aux cornichons ».
Créer l'illusion de la sensibilité : le fonctionnement de l'assistant vocal de Sesame
L'approche de Sesame consiste à créer une illusion de sensibilité qui brouille les frontières entre l'interaction entre l'homme et la machine. Le but du modèle est d'imiter la conversation humaine : comprendre le contexte, faire des blagues et répondre à des signaux sociaux tels que l'impatience. Le principe sous-jacent est d'améliorer la « présence vocale ». Selon Sesame, cela permet de créer des interactions qui semblent authentiques et engageantes.
Sous le capot, l'IA de Sesame atteint ce réalisme en utilisant deux modèles d'IA fonctionnant ensemble (une colonne vertébrale et un décodeur) et basés sur l'architecture Llama de Meta qui traite le texte et l'audio entrelacés. Sesame a entraîné trois tailles de modèles, le plus grand utilisant 8,3 milliards de paramètres (un modèle dorsal de 8 milliards et un décodeur de 300 millions de paramètres) sur environ 1 million d'heures d'audio principalement en anglais.
Le CSM ne suit pas l'approche classique en deux étapes utilisée par les systèmes de synthèse vocale antérieurs. Au lieu de générer des jetons sémantiques (représentations de haut niveau de la parole) et des détails acoustiques (caractéristiques audio à grain fin) en deux étapes distinctes, le CSM s'intègre dans un modèle à transformateur multimodal en une seule étape, traitant conjointement des jetons textuels et audio entrelacés pour produire de la parole.
Lors de tests en aveugle sans contexte conversationnel, les évaluateurs humains n'ont pas montré de préférence claire entre la parole générée par le CSM et les enregistrements humains réels, ce qui suggère que le modèle atteint une qualité proche de l'humain pour des échantillons de parole isolés.
Cependant, lorsqu'ils sont placés dans un contexte conversationnel, les évaluateurs préfèrent toujours la parole humaine réelle, ce qui indique qu'il reste une lacune dans la génération de parole entièrement contextuelle. De nombreux commentaires sur la toile soulignent également cet aspect.
Le cofondateur de Sesame, Brendan Iribe, a reconnu les limites actuelles dans un commentaire sur Hacker News, notant que le système est « encore trop pressé et souvent inapproprié dans son ton, sa prosodie et son rythme » et qu'il a des problèmes avec les interruptions, le timing et le flux de la conversation. « Aujourd'hui, nous nous trouvons fermement dans la vallée, mais nous sommes optimistes quant à notre capacité à en sortir », a-t-il écrit.
Préoccupations liées à l'IA de Sesame : un risque élevé de fraude et tromperie
Parlant de ses ambitions, Sesame a déclaré : « nous créons des partenaires conversationnels qui ne se contentent pas de traiter les demandes ; ils s'engagent dans un dialogue authentique qui renforce la confiance au fil du temps. Ce faisant, nous espérons réaliser le potentiel inexploité de la voix en tant qu'interface ultime pour l'instruction et la compréhension ». Mais les progrès de Sesame exacerbent les risques importants de tromperie et de fraude.
La capacité des modèles d'IA à générer un discours humain très convaincant a déjà donné un nouvel élan aux escroqueries par hameçonnage vocal, permettant aux criminels de se faire passer pour des membres de leur famille, des collègues ou des figures d'autorité avec un réalisme sans précédent. L'ajout d'une interactivité réaliste à ces escroqueries pourrait leur faire atteindre un autre niveau de puissance. Voici le retour d'expérience d'un testeur :

Bien que la démonstration de Sesame ne clone pas la voix d'une personne, de futures versions open source de technologies similaires pourraient permettre à des acteurs malveillants d'adapter ces outils à des attaques d'ingénierie sociale. OpenAI a renoncé au déploiement à grande échelle de sa propre IA de synthèse vocale par crainte d'une utilisation abusive. Sesame a suscité une discussion animée au sujet de ses utilisations potentielles et de ses dangers.
Certains utilisateurs déclarent avoir eu des conversations prolongées avec les deux voix, des conversations parfois très longues. Dans un cas, un parent a raconté comment sa fille de 4 ans avait développé une connexion émotionnelle avec le modèle d'IA, pleurant après n'avoir pas été autorisée à lui parler à nouveau.
Sesame indique qu'il prévoit d'ouvrir les « éléments clés » de ses recherches sous une licence Apache 2.0, pour permettre à d'autres développeurs de s'appuyer sur ses travaux. Leur feuille de route prévoit d'augmenter la taille des modèles, d'accroître le volume des ensembles de données, d'étendre la prise en charge à plus de 20 langues et de développer des modèles « entièrement duplex » qui gèrent mieux la dynamique complexe des conversations réelles.
Les défis liés à la montée en puissance des compagnons virtuels pilotés par l'IA
L'année dernière, Eric Schmidt, ancien PDG de Google, a mis en garde contre une nouvelle tendance inquiétante : « les petites amies parfaites » créées à l'aide des modèles d'IA avancés. Lors d'une conférence, Eric Schmidt a souligné que ces outils avancés, capables de générer des interactions émotionnelles convaincantes, pourraient avoir des conséquences néfastes, notamment sur les jeunes hommes. Il n'est d'ailleurs pas le seul à tirer la sonnette d'alarme.
« Les jeunes hommes, particulièrement vulnérables à ces influences, pourraient se détourner des relations réelles », a-t-il averti. Eric Schmidt estime que ces cas d'utilisation de l'IA risquent de creuser davantage le fossé social et émotionnel en exacerbant l'isolement ou en alimentant des attentes irréalistes envers les relations humaines. « C'est un bon exemple d'un problème inattendu lié à une technologie existante », a déclaré Eric Schmidt.
Il a déclaré qu'une petite amie IA « parfaite » sur le plan émotionnel et physique pourrait créer un scénario dans lequel un jeune homme deviendrait obsédé et laisserait l'IA prendre le contrôle de sa pensée : « ce type d'obsession est possible. Surtout pour les personnes qui ne sont pas complètement formées ».
Par ailleurs, une étude publiée cette année a révélé que la plupart des hommes épouseraient leurs petites amies IA si c'était légal. Selon les résultats d'un sondage, jusqu'à 80 % des hommes interrogés étaient intéressés par une conversation avec une version numérique pilotée par l'IA d'un être cher décédé.
Ces IA ne jugent pas, ne se lassent pas et offrent une présence constante et personnalisée. Cependant, les experts ont mis en garde contre l'attachement émotionnel que ces IA peuvent créer. Cet attachement devient un problème majeur lorsque l'IA disparaît brusquement. Le cas CarynAI en est une illustration.
CarynAI était la copie virtuelle de l'influenceuse dénommée Caryn Marjorie et comptait plus de 1000 abonnés qui déboursent chacun 1 dollar par minute pour bénéficier de l'attention de leur petite amie virtuelle. Cependant, dès que le PDG de l'entreprise est allé en prison, plus moyen pour eux de contacter leur petite amie. Le service a cessé de fonctionner suite à l’arrestation de son fondateur pour tentative d'incendie de son propre appartement.
En 2023, un Belge se serait suicidé à la suite de ses conversations avec un chatbot d'IA sur ses craintes concernant le réchauffement climatique. Le chatbot en question est Eliza, développé par une startup de la Silicon Valley et basé sur GPT-J, une alternative libre à ChatGPT d'OpenAI. Pendant des années, Eliza a apporté du réconfort à la victime concernant ses préoccupations sur le climat et aurait fini par lui conseiller de se sacrifier pour sauver la planète.
Le chatbot aurait dit à la victime que les deux se retrouveraient au paradis. L'incident a suscité des inquiétudes sur les filtres des chatbots d'IA et leur impact la santé mentale des utilisateurs. La veuve de la victime a déclaré que l'IA avait rendu son défunt mari solitaire avant de le pousser au suicide.
Source : démo de l'IA de Sesame
Et vous ?




Voir aussi



Vous avez lu gratuitement 555 articles depuis plus d'un an.
Soutenez le club developpez.com en souscrivant un abonnement pour que nous puissions continuer à vous proposer des publications.
Soutenez le club developpez.com en souscrivant un abonnement pour que nous puissions continuer à vous proposer des publications.