IdentifiantMot de passe
Loading...
Mot de passe oublié ?Je m'inscris ! (gratuit)

Vous êtes nouveau sur Developpez.com ? Créez votre compte ou connectez-vous afin de pouvoir participer !

Vous devez avoir un compte Developpez.com et être connecté pour pouvoir participer aux discussions.

Vous n'avez pas encore de compte Developpez.com ? Créez-en un en quelques instants, c'est entièrement gratuit !

Si vous disposez déjà d'un compte et qu'il est bien activé, connectez-vous à l'aide du formulaire ci-dessous.

Identifiez-vous
Identifiant
Mot de passe
Mot de passe oublié ?
Créer un compte

L'inscription est gratuite et ne vous prendra que quelques instants !

Je m'inscris !

L'IA Speech2Face permet de « reconstruire » le visage d'une personne en se basant sur sa voix
Elle a besoin au minimum de trois secondes de parole pour générer un visage

Le , par Stéphane le calme

139PARTAGES

13  0 
Les photographies sont réalisées à l'aide de la lumière. Et si des portraits de personnes pouvaient être réalisés avec le son de leur voix ? Les chercheurs en intelligence artificielle ont travaillé sur la reconstruction du visage d'une personne en utilisant uniquement un court enregistrement audio de cette personne en train de parler. Les résultats ne sont pas encore parfaits, mais dans certains cas, ils sont sacrément proches du visage d'origine. Les scientifiques du Computer Science and Artificial Intelligence Laboratory (CSAIL) au MIT ont publié pour la première fois un algorithme d'IA appelé Speech2Face dans un article en 2019. « Combien pouvons-nous déduire de l'apparence d'une personne à partir de la façon dont elle parle ? », peut-on lire sur le résumé. « Nous étudions la tâche de reconstruire une image faciale d'une personne à partir d'un court enregistrement audio de cette personne qui parle ». Bien sûr, ils ont précisé : « Notez que notre objectif n'est pas de reconstruire une image précise de la personne, mais plutôt de récupérer des traits physiques caractéristiques qui sont corrélés avec le discours d'entrée ».

La technologie de Speech2Face affiche des rendus très photoréalistes qui sont également trop génériques pour identifier une personne en particulier. Mais elle permet d'établir un profil suffisamment précis avec l'ethnie, le sexe et l'âge du sujet. Une technologie capable d'estimer ces deux facteurs existait déjà, mais la composante ethnique est une nouveauté de l'IA Speech2Face.



La technologie continue de croître à pas de géant, s'appuyant sur divers domaines pour explorer de nouvelles capacités et fonctionnalités. L'une d'entre elles est de pouvoir « reconstruire » le visage d'une personne à travers un fragment de voix. De nombreux résultats montrent une grande similitude avec la personne derrière la voix.

Le document explique que l'objectif des chercheurs Tae-Hyun On, Tali Dekel, Changil Kim, Inbar Mosseri, William T. Freeman et Michael Rubinstein du MIT Science and Research Program n'est pas de reconstruire à l'identique les visages des personnes mais de faire une image avec les caractéristiques physiques liées à l'audio analysé.

Pour y parvenir, ils ont utilisé, conçu et formé un réseau de neurones profonds qui a analysé des millions de vidéos prises sur YouTube où il y a des gens qui parlent. Au cours de la formation, le modèle a appris à corréler les voix avec les visages , ce qui lui a permis de produire des images avec des attributs physiques similaires aux locuteurs, notamment l'âge, le sexe et l'origine ethnique. Le fonctionnement de l'algorithme s'articule autour de l'utilisation de deux composants principaux :
  • un encodeur ; qui extrait et enregistre le spectrogramme des ondes audio, en reconnaissant une série de caractéristiques clés de celui-ci
  • un décodeur ; qui sur la base des caractéristiques précitées génère une image du visage, représenté de face et avec un geste neutre

Il n'y a eu aucune implication humaine dans le processus de formation, car les chercheurs n'ont pas eu besoin d'étiqueter manuellement des sous-ensembles de données - l'IA a simplement reçu une énorme quantité de vidéos et a été chargée de déterminer les corrélations entre les caractéristiques vocales et les caractéristiques faciales.

« Nous avons conçu et formé un réseau neuronal profond pour effectuer cette tâche en utilisant des millions de vidéos naturelles de personnes parlant depuis Internet/Youtube. Au cours de la formation, notre modèle apprend les corrélations audiovisuelles, voix-visage qui lui permettent de produire des images qui capturent divers attributs physiques des locuteurs tels que l'âge, le sexe et l'origine ethnique. Cela se fait de manière auto-supervisée, en utilisant la cooccurrence naturelle des visages et de la parole dans les vidéos Internet, sans qu'il soit nécessaire de modéliser explicitement les attributs. Nos reconstructions, obtenues directement à partir de l'audio, révèlent les corrélations entre les visages et les voix. Nous évaluons et quantifions numériquement comment - et de quelle manière - nos reconstructions Speech2Face à partir de l'audio ressemblent aux vraies images de visage des locuteurs ».

Une fois formée, l'IA était remarquablement douée pour créer des portraits basés uniquement sur des enregistrements vocaux qui ressemblaient à ce à quoi ressemblait réellement l'orateur.


À gauche, le vrai visage (la référence), à droite, l'image reconstruite par l'IA grâce au son de la voix

Pour analyser plus en détail la précision des reconstructions faciales, les chercheurs ont construit un « décodeur de visage » qui crée une reconstruction standardisée du visage d'une personne à partir d'une image fixe tout en ignorant les « variations non pertinentes »...
La fin de cet article est réservée aux abonnés. Soutenez le Club Developpez.com en prenant un abonnement pour que nous puissions continuer à vous proposer des publications.

Une erreur dans cette actualité ? Signalez-nous-la !

Avatar de melka one
Membre expérimenté https://www.developpez.com
Le 09/04/2022 à 19:36
jour

C'est du grand n'importe quoi
4  1 
Avatar de 23JFK
Inactif https://www.developpez.com
Le 10/04/2022 à 4:22
Encore une IA qui va se voir accuser de racisme.
3  0 
Avatar de archqt
Membre émérite https://www.developpez.com
Le 10/04/2022 à 18:53
Et quand le mec en face lâche par erreur une caisse, l'IA dessine quoi ? un trou noir ?

On ne sait jamais il y a peut être une connexion entre les parties du corps, qui sait.
2  0 
Avatar de vttman
Membre émérite https://www.developpez.com
Le 10/04/2022 à 12:27
Et avec l'haleine on va pouvoir reconstituer la corpulence ?
1  0 
Avatar de tourlourou
Modérateur https://www.developpez.com
Le 10/04/2022 à 18:57
Ça permettra peut-être d'approcher le visage d'acteurs avant bistouri...
1  0 
Avatar de kain_tn
Expert éminent https://www.developpez.com
Le 10/04/2022 à 18:21
Citation Envoyé par Stéphane le calme Voir le message

Concernant les usages, certains pensent qu'une employabilité commerciale de cet algorithme serait la possibilité de générer une image représentative de l'interlocuteur lorsque l'on est en train de téléphoner ou d'écouter la radio.
[mode ironique]Ohlàlà! Ça c'est quelque chose de très utile! Vivement que ça sorte![/mode ironique]
0  0 
Avatar de Matthieu Vergne
Expert éminent https://www.developpez.com
Le 23/04/2022 à 15:13
Ça peut paraître idiot pour beaucoup, mais moi je hais le téléphone en partie car j'ai du mal à comprendre mon interlocuteur. Et avoir un visage mouvant (notamment les lèvres) permettrait d'améliorer la compréhensibilité du message. Imaginez donc les malentendants (et pourtant je n'en suis pas un) qui pourraient profiter de ce genre de technologie. On pourrait tout aussi bien le faire avec un avatar, mais une fois qu'on parle de pouvoir personnaliser l'avatar pour ne pas avoir toujours la même face, on tombe sur ce type de techno.
0  0