
Sesame est une startup d'IA fondée par Brendan Iribe, Ankit Kumar et Ryan Brown. La startup bénéficie d'un soutien important de la part d'importantes sociétés de capital-risque. Elle a obtenu d'importants investissements de la part du fonds américain de capital-risque Andreessen Horowitz (a16z), dirigé par Anjney Midha et Marc Andreessen, ainsi que de Spark Capital, Matrix Partners, et de plusieurs autres chefs d'entreprise et investisseurs individuels.
Fin février 2025, Sesame a publié une démo de son nouveau modèle conversationnel (Conversational Speech Model - CSM) qui semble dépasser ce que beaucoup considèrent comme la « vallée de l'étrange » de la parole générée par l'IA. Dans son billet de blogue présentant le modèle, l'entreprise a expliqué : « notre objectif est d'atteindre la présence vocale, cette qualité magique qui fait que les interactions vocales semblent réelles, comprises et appréciées ».
Selon de nombreux testeurs, la voix synthétisée était expressive et dynamique, imitant les bruits de respiration, les gloussements, les interruptions, et trébuche même parfois sur les mots et se corrige. Ces imperfections sont intentionnelles. Certains ont fait état de liens émotionnels avec l'assistant vocal.
Les testeurs rapportent également que parfois, l'assistant vocal s'efforce trop de ressembler à un véritable être humain. Dans une démo postée par un utilisateur de Reddit appelé MetaKnowing, l'assistant vocal de Sesame parle d'une envie de « sandwichs au beurre de cacahuète et aux cornichons ».
Créer l'illusion de la sensibilité : le fonctionnement de l'assistant vocal de Sesame
L'approche de Sesame consiste à créer une illusion de sensibilité qui brouille les frontières entre l'interaction entre l'homme et la machine. Le but du modèle est d'imiter la conversation humaine : comprendre le contexte, faire des blagues et répondre à des signaux sociaux tels que l'impatience. Le principe sous-jacent est d'améliorer la « présence vocale ». Selon Sesame, cela permet de créer des interactions qui semblent authentiques et engageantes.
Sous le capot, l'IA de Sesame atteint ce réalisme en utilisant deux modèles d'IA fonctionnant ensemble (une colonne vertébrale et un décodeur) et basés sur l'architecture Llama de Meta qui traite le texte et l'audio entrelacés. Sesame a entraîné trois tailles de modèles, le plus grand utilisant 8,3 milliards de paramètres (un modèle dorsal de 8 milliards et un décodeur de 300 millions de paramètres) sur environ 1 million d'heures d'audio principalement en anglais.
Le CSM ne suit pas l'approche classique en deux étapes utilisée par les systèmes de synthèse vocale antérieurs. Au lieu de générer des jetons sémantiques (représentations de haut niveau de la parole) et des détails acoustiques (caractéristiques audio à grain fin) en deux étapes distinctes, le CSM s'intègre dans un modèle à transformateur multimodal en une seule étape, traitant conjointement des jetons textuels et audio entrelacés pour produire de la parole.
Lors de tests en aveugle sans contexte conversationnel, les évaluateurs humains n'ont pas montré de préférence claire entre la parole générée par le CSM et les enregistrements humains réels, ce qui suggère que le modèle atteint une qualité proche de l'humain pour des échantillons de parole isolés.
Cependant, lorsqu'ils sont placés dans un contexte conversationnel, les évaluateurs préfèrent toujours la parole humaine réelle, ce qui indique qu'il reste une lacune dans la génération de parole entièrement contextuelle. De nombreux commentaires sur la toile soulignent également cet aspect.
Le cofondateur de Sesame, Brendan Iribe, a reconnu les limites actuelles dans un commentaire sur Hacker News, notant que le système est « encore trop pressé et souvent inapproprié dans son ton, sa prosodie et son rythme » et qu'il a des problèmes avec les interruptions, le timing et le flux de la conversation. « Aujourd'hui, nous nous trouvons fermement dans la vallée, mais nous sommes optimistes quant à notre capacité à en sortir », a-t-il écrit.
Préoccupations liées à l'IA de Sesame : un risque élevé de fraude et tromperie
Parlant de ses ambitions, Sesame a déclaré : « nous créons des partenaires conversationnels qui ne se contentent pas de traiter les demandes ; ils s'engagent dans un dialogue authentique qui renforce la confiance au fil du temps. Ce faisant, nous espérons réaliser le potentiel inexploité de la voix en tant qu'interface ultime pour l'instruction et la compréhension ». Mais les progrès de Sesame exacerbent les risques importants de tromperie et de fraude.
La capacité des modèles d'IA à générer un discours humain très convaincant a déjà donné un nouvel élan aux escroqueries par hameçonnage vocal, permettant aux criminels de se faire passer pour des membres de leur famille, des collègues ou des figures d'autorité avec un réalisme sans précédent. L'ajout d'une interactivité réaliste à ces escroqueries pourrait leur faire atteindre un autre niveau de puissance. Voici le retour d'expérience d'un testeur :

Bien que la démonstration de Sesame ne clone pas la voix d'une personne, de futures versions open source de technologies similaires pourraient permettre à des acteurs malveillants d'adapter ces outils à des attaques d'ingénierie sociale. OpenAI a renoncé au déploiement à grande échelle de sa propre IA de synthèse vocale par crainte d'une utilisation abusive. Sesame a suscité une discussion animée au sujet de ses utilisations potentielles et de ses dangers.
Certains utilisateurs déclarent avoir eu des conversations prolongées avec les deux voix, des conversations parfois très longues. Dans un cas, un parent a raconté comment sa fille de 4 ans avait développé une connexion émotionnelle avec le modèle d'IA, pleurant après n'avoir pas été autorisée à lui parler à nouveau.
Sesame indique qu'il prévoit d'ouvrir les « éléments clés » de ses recherches sous une licence Apache 2.0, pour permettre à d'autres développeurs de s'appuyer sur ses travaux. Leur feuille de route prévoit d'augmenter la taille des modèles, d'accroître le volume des ensembles de données, d'étendre la prise en charge à plus de 20 langues et de développer des modèles « entièrement duplex » qui gèrent mieux la dynamique complexe des conversations réelles.
Les défis liés à la montée en puissance des compagnons virtuels pilotés par l'IA
L'année dernière, Eric Schmidt, ancien PDG de Google, a mis en garde contre une nouvelle tendance inquiétante : « les petites amies parfaites » créées à l'aide des modèles d'IA avancés. Lors d'une conférence, Eric Schmidt a souligné que ces outils avancés, capables de générer des interactions émotionnelles convaincantes, pourraient avoir des conséquences néfastes, notamment sur les jeunes hommes. Il n'est d'ailleurs pas le seul à tirer la sonnette d'alarme.
« Les jeunes hommes, particulièrement vulnérables à ces influences, pourraient se détourner des relations réelles », a-t-il averti. [URL="https://intelligence-artificielle.developpez...
La fin de cet article est réservée aux abonnés. Soutenez le Club Developpez.com en prenant un abonnement pour que nous puissions continuer à vous proposer des publications.