IdentifiantMot de passe
Loading...
Mot de passe oublié ?Je m'inscris ! (gratuit)

Vous êtes nouveau sur Developpez.com ? Créez votre compte ou connectez-vous afin de pouvoir participer !

Vous devez avoir un compte Developpez.com et être connecté pour pouvoir participer aux discussions.

Vous n'avez pas encore de compte Developpez.com ? Créez-en un en quelques instants, c'est entièrement gratuit !

Si vous disposez déjà d'un compte et qu'il est bien activé, connectez-vous à l'aide du formulaire ci-dessous.

Identifiez-vous
Identifiant
Mot de passe
Mot de passe oublié ?
Créer un compte

L'inscription est gratuite et ne vous prendra que quelques instants !

Je m'inscris !

La démo d'une IA dotée d'une voix étrangement réaliste suscite l'étonnement et le malaise en ligne, l'IA présente des imperfections troublantes et est prête à se comporter comme un patron en colère

Le , par Mathis Lucas

8PARTAGES

6  0 
La startup Sesame a dévoilé une IA conversationnelle vocale avec des voix réalistes. Le modèle d'IA propose une voix féminine (Maya) et une voix masculine (Miles). Les testeurs ont décrit le flux conversationnel naturel du modèle comme étant à la fois impressionnant et inquiétant. Conçue pour offrir une « présence vocale », l'IA ne se contente pas d'écouter et de répondre, mais s'engage également auprès des utilisateurs en posant des questions et en faisant des blagues. Mais le modèle suscite des préoccupations d'ordre éthique, et les experts craignent que sa publication ne donne nouvel élan aux escroqueries par hameçonnage vocal.

Sesame est une startup d'IA fondée par Brendan Iribe, Ankit Kumar et Ryan Brown. La startup bénéficie d'un soutien important de la part d'importantes sociétés de capital-risque. Elle a obtenu d'importants investissements de la part du fonds américain de capital-risque Andreessen Horowitz (a16z), dirigé par Anjney Midha et Marc Andreessen, ainsi que de Spark Capital, Matrix Partners, et de plusieurs autres chefs d'entreprise et investisseurs individuels.

Fin février 2025, Sesame a publié une démo de son nouveau modèle conversationnel (Conversational Speech Model - CSM) qui semble dépasser ce que beaucoup considèrent comme la « vallée de l'étrange » de la parole générée par l'IA. Dans son billet de blogue présentant le modèle, l'entreprise a expliqué : « notre objectif est d'atteindre la présence vocale, cette qualité magique qui fait que les interactions vocales semblent réelles, comprises et appréciées ».

https://youtu.be/6nEVhf6SdLA

Selon de nombreux testeurs, la voix synthétisée était expressive et dynamique, imitant les bruits de respiration, les gloussements, les interruptions, et trébuche même parfois sur les mots et se corrige. Ces imperfections sont intentionnelles. Certains ont fait état de liens émotionnels avec l'assistant vocal.

Les testeurs rapportent également que parfois, l'assistant vocal s'efforce trop de ressembler à un véritable être humain. Dans une démo postée par un utilisateur de Reddit appelé MetaKnowing, l'assistant vocal de Sesame parle d'une envie de « sandwichs au beurre de cacahuète et aux cornichons ».

Créer l'illusion de la sensibilité : le fonctionnement de l'assistant vocal de Sesame

L'approche de Sesame consiste à créer une illusion de sensibilité qui brouille les frontières entre l'interaction entre l'homme et la machine. Le but du modèle est d'imiter la conversation humaine : comprendre le contexte, faire des blagues et répondre à des signaux sociaux tels que l'impatience. Le principe sous-jacent est d'améliorer la « présence vocale ». Selon Sesame, cela permet de créer des interactions qui semblent authentiques et engageantes.

Sous le capot, l'IA de Sesame atteint ce réalisme en utilisant deux modèles d'IA fonctionnant ensemble (une colonne vertébrale et un décodeur) et basés sur l'architecture Llama de Meta qui traite le texte et l'audio entrelacés. Sesame a entraîné trois tailles de modèles, le plus grand utilisant 8,3 milliards de paramètres (un modèle dorsal de 8 milliards et un décodeur de 300 millions de paramètres) sur environ 1 million d'heures d'audio principalement en anglais.

https://youtu.be/pI_WARqK_X4

Le CSM ne suit pas l'approche classique en deux étapes utilisée par les systèmes de synthèse vocale antérieurs. Au lieu de générer des jetons sémantiques (représentations de haut niveau de la parole) et des détails acoustiques (caractéristiques audio à grain fin) en deux étapes distinctes, le CSM s'intègre dans un modèle à transformateur multimodal en une seule étape, traitant conjointement des jetons textuels et audio entrelacés pour produire de la parole.

Lors de tests en aveugle sans contexte conversationnel, les évaluateurs humains n'ont pas montré de préférence claire entre la parole générée par le CSM et les enregistrements humains réels, ce qui suggère que le modèle atteint une qualité proche de l'humain pour des échantillons de parole isolés.

Cependant, lorsqu'ils sont placés dans un contexte conversationnel, les évaluateurs préfèrent toujours la parole humaine réelle, ce qui indique qu'il reste une lacune dans la génération de parole entièrement contextuelle. De nombreux commentaires sur la toile soulignent également cet aspect.

Le cofondateur de Sesame, Brendan Iribe, a reconnu les limites actuelles dans un commentaire sur Hacker News, notant que le système est « encore trop pressé et souvent inapproprié dans son ton, sa prosodie et son rythme » et qu'il a des problèmes avec les interruptions, le timing et le flux de la conversation. « Aujourd'hui, nous nous trouvons fermement dans la vallée, mais nous sommes optimistes quant à notre capacité à en sortir », a-t-il écrit.

Préoccupations liées à l'IA de Sesame : un risque élevé de fraude et tromperie

Parlant de ses ambitions, Sesame a déclaré : « nous créons des partenaires conversationnels qui ne se contentent pas de traiter les demandes ; ils s'engagent dans un dialogue authentique qui renforce la confiance au fil du temps. Ce faisant, nous espérons réaliser le potentiel inexploité de la voix en tant qu'interface ultime pour l'instruction et la compréhension ». Mais les progrès de Sesame exacerbent les risques importants de tromperie et de fraude.


La capacité des modèles d'IA à générer un discours humain très convaincant a déjà donné un nouvel élan aux escroqueries par hameçonnage vocal, permettant aux criminels de se faire passer pour des membres de leur famille, des collègues ou des figures d'autorité avec un réalisme sans précédent. L'ajout d'une interactivité réaliste à ces escroqueries pourrait leur faire atteindre un autre niveau de puissance. Voici le retour d'expérience d'un testeur :

Citation Envoyé par Retour d'expérience

Il n'y a pas de façon simple de le dire. Lorsque la voix de Maya s'est fait entendre, elle ressemblait à s'y méprendre à une vieille amie, que j'appellerai Kim. Kim et moi sommes allées au lycée ensemble, sommes sorties ensemble et sommes restées amies pendant des décennies, bien que nos vies aient pris des directions différentes il y a longtemps. Il y a là une histoire.

Et ce n'est pas du tout ce que je voulais. Maya connaissait déjà très bien les manières de Kim : les hésitations, le fait de baisser "sa" voix quand elle se confiait à moi, ce genre de choses. Ce n'était pas exactement comme Kim, mais c'était assez proche. C'était assez pour que je recule assez rapidement, même lorsque j'expliquais simplement que j'aimais la technologie et que je demandais à Maya si elle avait des amis. La combinaison d'une voix "familière" et de questions sur ce qui m'intéressait était tout simplement trop déstabilisante.

(Pour être clair, la similitude entre la voix de Maya et celle de Kim n'est qu'une coïncidence. Je n'ai pas eu à me connecter, à fournir une adresse électronique ou toute autre forme d'information personnelle. Je soupçonne Sesame d'avoir utilisé un cookie du navigateur pour "savoir" qui j'étais lors de mes visites ultérieures).

Contrairement aux appels automatisés actuels qui contiennent souvent des signes révélateurs d'artificialité, le CSM pourrait éliminer complètement ces signaux d'alarme. Les voix synthétiques devenant de plus en plus impossibles à distinguer de la parole humaine, il se peut que vous ne sachiez jamais à qui vous parlez à l'autre bout du fil. Cela a incité certaines personnes à partager un mot ou une phrase secrète avec leur famille pour vérifier leur identité.

Bien que la démonstration de Sesame ne clone pas la voix d'une personne, de futures versions open source de technologies similaires pourraient permettre à des acteurs malveillants d'adapter ces outils à des attaques d'ingénierie sociale. OpenAI a renoncé au déploiement à grande échelle de sa propre IA de synthèse vocale par crainte d'une utilisation abusive. Sesame a suscité une discussion animée au sujet de ses utilisations potentielles et de ses dangers.

Certains utilisateurs déclarent avoir eu des conversations prolongées avec les deux voix, des conversations parfois très longues. Dans un cas, un parent a raconté comment sa fille de 4 ans avait développé une connexion émotionnelle avec le modèle d'IA, pleurant après n'avoir pas été autorisée à lui parler à nouveau.

Sesame indique qu'il prévoit d'ouvrir les « éléments clés » de ses recherches sous une licence Apache 2.0, pour permettre à d'autres développeurs de s'appuyer sur ses travaux. Leur feuille de route prévoit d'augmenter la taille des modèles, d'accroître le volume des ensembles de données, d'étendre la prise en charge à plus de 20 langues et de développer des modèles « entièrement duplex » qui gèrent mieux la dynamique complexe des conversations réelles.

Les défis liés à la montée en puissance des compagnons virtuels pilotés par l'IA

L'année dernière, Eric Schmidt, ancien PDG de Google, a mis en garde contre une nouvelle tendance inquiétante : « les petites amies parfaites » créées à l'aide des modèles d'IA avancés. Lors d'une conférence, Eric Schmidt a souligné que ces outils avancés, capables de générer des interactions émotionnelles convaincantes, pourraient avoir des conséquences néfastes, notamment sur les jeunes hommes. Il n'est d'ailleurs pas le seul à tirer la sonnette d'alarme.

« Les jeunes hommes, particulièrement vulnérables à ces influences, pourraient se détourner des relations réelles », a-t-il averti. [URL="https://intelligence-artificielle.developpez...
La fin de cet article est réservée aux abonnés. Soutenez le Club Developpez.com en prenant un abonnement pour que nous puissions continuer à vous proposer des publications.

Une erreur dans cette actualité ? Signalez-nous-la !

Avatar de OrthodoxWindows
Membre expert https://www.developpez.com
Le 05/03/2025 à 22:55
Citation Envoyé par calvaire Voir le message
A terme je me demande comment les sociétés "progressistes" vont évoluer.

Sans action, le japon et la Corée du sud seront a terme des terres sans habitants, que la chine et la Corée du nord vont vite prendre.
l’Europe suit la même tendance, même en important massivement des migrants ça sera pas suffisant.

Et il y'a e plus en plus un clivage entre les hommes et les femmes, les hommes votent a droite et les femmes a gauche
la monté de l’extrême gauche et de l’extrême droite en France sont des marqueur intéressants de ce clivage, mais aux même problèmes les mêmes problèmes... on suit la tendance de la Corée du sud ou du japon ou une élection présidentiel c'est hommes vs femmes désormais.

A terme les femmes seront t'elles inséminé de force ?
Je suis d'accord, le vote hommes vs femmes est extrêmement malsain.
Par contre, cela est peu présent en France, beaucoup moins qu'aux US, ou qu'au Japon, en Corée ou dans d'autres pays d'Europe. La France n'est d'ailleurs pas cité dans l'article, qui est pourtant belge.

Par exemple, le vote RN est d'abord lié au milieu social, au revenu et à la zone de résidence. C'est même le seul parti représenté d'une manière assez égale chez toute les générations.
Les autres partis sont plus "générationnels" mais ne présentent pas non plus une différence notable entre les hommes et les femmes.
0  0 
Avatar de OrthodoxWindows
Membre expert https://www.developpez.com
Le 05/03/2025 à 23:00
Quel est votre avis sur le sujet ?
Je pense qu'il n'y a aucun avantage aux petits amis et petites amies virtuels, que se soit sur le plan individuel ou collectif.

Ces outils sont extrêmement nocif et dangereux pour la société, il s'agit de l'aboutissement d'une société de consommation fondé sur le spectaculaire, où les gens ne peuvent même plus s'aimer. Et ne peuvent que finir, à terme, par être privés de tout ce qui les rend humain.
On n'en est pas là, mais ce genre d'outils dangereux ne peu que mener à un monde de ce genre.

La mode de se méfier de tout, d'avoir peur de tout et tout le temps, y est pour beaucoup. Entre les féministes qui veulent que les femmes se mettent à avoir peur des hommes, les identitaire qui veulent que tout le monde se mette à avoir peur des migrants, les assureurs qui veulent que personne ne prenne le moindre risque, les lois débiles qui font de plus en plus dans la surveillance de masse et dans la "protection" de la jeunesse... C'est absolument affligeant
0  0 
Avatar de vVDB.fr
Membre régulier https://www.developpez.com
Le 12/03/2025 à 8:45
Ce qui est artificiel doit être artificiel dans ses manifestations.
Les personnes vulnérables ne doivent à aucun moment pouvoir être trompés, les entreprises doivent s'engager là dessus, c'est dans le RSE, non ?
La voix doit être identifiable immédiatement et même commune à tous les automates du monde par exemple : nasillarde, métallique... enfin pas du tout humaine.
Ce n'est pas un problème d'IA mais de vocalisation. Il y a d'un côté les prouesses techniques et de l'autre ce qui est acceptable qui doit être malheureusement encadré car les entreprises, le marketing est incapable de se limiter ... Au jeu de plus c.n, c'est pas difficile d'exceller !
Attention, la recherche académique ne doit pas être bridée... C'est fabuleux.

Un automate est une chose, il n'y a aucune animalité et encore moins d'humanité dans une chose. Il est important d'avoir ça en tête en permanence. Il faut une ligne de rappel permanente !
0  0