L'IA Speech2Face permet de « reconstruire » le visage d'une personne en se basant sur sa voix

Elle a besoin au minimum de trois secondes de parole pour générer un visage

Le 9 avril 2022 à 11:56, par Stéphane le calme

91PARTAGES

L'IA Speech2Face permet de « reconstruire » le visage d'une personne en se basant sur sa voix,
elle a besoin au minimum de trois secondes de parole pour générer un visage

Les photographies sont réalisées à l'aide de la lumière. Et si des portraits de personnes pouvaient être réalisés avec le son de leur voix ? Les chercheurs en intelligence artificielle ont travaillé sur la reconstruction du visage d'une personne en utilisant uniquement un court enregistrement audio de cette personne en train de parler. Les résultats ne sont pas encore parfaits, mais dans certains cas, ils sont sacrément proches du visage d'origine. Les scientifiques du Computer Science and Artificial Intelligence Laboratory (CSAIL) au MIT ont publié pour la première fois un algorithme d'IA appelé Speech2Face dans un article en 2019. « Combien pouvons-nous déduire de l'apparence d'une personne à partir de la façon dont elle parle ? », peut-on lire sur le résumé. « Nous étudions la tâche de reconstruire une image faciale d'une personne à partir d'un court enregistrement audio de cette personne qui parle ». Bien sûr, ils ont précisé : « Notez que notre objectif n'est pas de reconstruire une image précise de la personne, mais plutôt de récupérer des traits physiques caractéristiques qui sont corrélés avec le discours d'entrée ».

La technologie de Speech2Face affiche des rendus très photoréalistes qui sont également trop génériques pour identifier une personne en particulier. Mais elle permet d'établir un profil suffisamment précis avec l'ethnie, le sexe et l'âge du sujet. Une technologie capable d'estimer ces deux facteurs existait déjà, mais la composante ethnique est une nouveauté de l'IA Speech2Face.

La technologie continue de croître à pas de géant, s'appuyant sur divers domaines pour explorer de nouvelles capacités et fonctionnalités. L'une d'entre elles est de pouvoir « reconstruire » le visage d'une personne à travers un fragment de voix. De nombreux résultats montrent une grande similitude avec la personne derrière la voix.

Le document explique que l'objectif des chercheurs Tae-Hyun On, Tali Dekel, Changil Kim, Inbar Mosseri, William T. Freeman et Michael Rubinstein du MIT Science and Research Program n'est pas de reconstruire à l'identique les visages des personnes mais de faire une image avec les caractéristiques physiques liées à l'audio analysé.

Pour y parvenir, ils ont utilisé, conçu et formé un réseau de neurones profonds qui a analysé des millions de vidéos prises sur YouTube où il y a des gens qui parlent. Au cours de la formation, le modèle a appris à corréler les voix avec les visages , ce qui lui a permis de produire des images avec des attributs physiques similaires aux locuteurs, notamment l'âge, le sexe et l'origine ethnique. Le fonctionnement de l'algorithme s'articule autour de l'utilisation de deux composants principaux :

un encodeur ; qui extrait et enregistre le spectrogramme des ondes audio, en reconnaissant une série de caractéristiques clés de celui-ci
un décodeur ; qui sur la base des caractéristiques précitées génère une image du visage, représenté de face et avec un geste neutre

Il n'y a eu aucune implication humaine dans le processus de formation, car les chercheurs n'ont pas eu besoin d'étiqueter manuellement des sous-ensembles de données - l'IA a simplement reçu une énorme quantité de vidéos et a été chargée de déterminer les corrélations entre les caractéristiques vocales et les caractéristiques faciales.

« Nous avons conçu et formé un réseau neuronal profond pour effectuer cette tâche en utilisant des millions de vidéos naturelles de personnes parlant depuis Internet/Youtube. Au cours de la formation, notre modèle apprend les corrélations audiovisuelles, voix-visage qui lui permettent de produire des images qui capturent divers attributs physiques des locuteurs tels que l'âge, le sexe et l'origine ethnique. Cela se fait de manière auto-supervisée, en utilisant la cooccurrence naturelle des visages et de la parole dans les vidéos Internet, sans qu'il soit nécessaire de modéliser explicitement les attributs. Nos reconstructions, obtenues directement à partir de l'audio, révèlent les corrélations entre les visages et les voix. Nous évaluons et quantifions numériquement comment - et de quelle manière - nos reconstructions Speech2Face à partir de l'audio ressemblent aux vraies images de visage des locuteurs ».

Une fois formée, l'IA était remarquablement douée pour créer des portraits basés uniquement sur des enregistrements vocaux qui ressemblaient à ce à quoi ressemblait réellement l'orateur.

À gauche, le vrai visage (la référence), à droite, l'image reconstruite par l'IA grâce au son de la voix

Pour analyser plus en détail la précision des reconstructions faciales, les chercheurs ont construit un « décodeur de visage » qui crée une reconstruction standardisée du visage d'une personne à partir d'une image fixe tout en ignorant les « variations non pertinentes » telles que la pose et l'éclairage. Cela a permis aux scientifiques de comparer plus facilement les reconstructions vocales avec les caractéristiques réelles du locuteur.

Encore une fois, les résultats de l'IA étaient étonnamment proches des vrais visages dans un grand pourcentage de cas.

À droite, l'image reconstruite par l'IA grâce au son de la voix. Au milieu, le travail du « décodeur de visage ». À gauche, le vrai visage (la référence)

Incidemment, des enregistrements vocaux plus longs conduisent à un meilleur résultat. Les chercheurs l'ont montré avec des exemples qui ont été créés à partir d'extraits audio de trois ou six secondes.

Faiblesses et problèmes éthiques

Dans certains cas, l'IA avait du mal à déterminer à quoi pouvait ressembler le locuteur. Des facteurs tels que l'accent, la langue parlée et la tonalité de la voix étaient des facteurs qui provoquaient des « incompatibilités discours-visage » dans lesquelles le sexe, l'âge ou l'origine ethnique étaient incorrects.

Exemples d'erreurs. La première photo correspond au visage de la personne dans l'audio et la seconde à celui recréé par le programme

Les personnes à voix aigue (y compris les garçons plus jeunes) étaient souvent identifiées comme des femmes tandis que les personnes à voix grave étaient étiquetées comme des hommes. Un homme asiatique parlant anglais avait une apparence moins asiatique que lorsqu'il parlait chinois. En clair, si la même personne parle sa langue maternelle, l'origine ethnique correcte est attribuée.

Les chercheurs espèrent obtenir des résultats encore plus précis s'ils fournissent davantage de données d'entraînement plus représentatives de l'ensemble de la population mondiale. Ils sont conscients que l'IA est actuellement aux prises avec des préjugés racistes et tentent de remédier à cette situation.

Les chercheurs ont souligné que, bien qu'il s'agisse d'une enquête purement académique, ils pensaient qu'il est important de discuter explicitement d'un ensemble de considérations éthiques en raison de la sensibilité potentielle des informations faciales :

Vie privée : Comme mentionné, notre méthode ne peut pas récupérer la véritable identité d'une personne à partir de sa voix (c'est-à-dire une image exacte de son visage). En effet, notre modèle est formé pour capturer les caractéristiques visuelles (liées à l'âge, au sexe, etc.) qui sont communes à de nombreux individus, et uniquement dans les cas où il existe des preuves suffisamment solides pour relier ces caractéristiques visuelles aux attributs vocaux / vocaux dans le données. En tant que tel, le modèle ne produira que des visages d'apparence moyenne, avec des caractéristiques visuelles caractéristiques qui sont corrélées avec le discours d'entrée. Il ne produira pas d'images d'individus spécifiques.
Corrélations voix-visage et biais des ensembles de données : Notre modèle est conçu pour révéler les corrélations statistiques qui existent entre les traits du visage et les voix des locuteurs dans les données d'entraînement. Les données d'entraînement que nous utilisons sont une collection de vidéos éducatives de YouTube et ne représentent pas de manière égale l'ensemble de la population mondiale. Par conséquent, le modèle --- comme c'est le cas avec tout modèle d'apprentissage automatique --- est affecté par cette distribution inégale des données.

Plus précisément, si un ensemble de locuteurs peut avoir des traits vocaux-visuels relativement rares dans les données, la qualité de nos reconstructions pour de tels cas peut se dégrader. Par exemple, si une certaine langue n'apparaît pas dans les données d'apprentissage, nos reconstructions ne capteront pas bien les attributs faciaux qui peuvent être corrélés à cette langue.

Notez que certaines des caractéristiques de nos visages prédits peuvent même ne pas être physiquement liées à la parole, par exemple la couleur ou le style des cheveux. Cependant, si de nombreux locuteurs de l'ensemble de formation qui parlent d'une manière similaire (par exemple, dans la même langue) partagent également certains traits visuels communs (par exemple, une couleur ou un style de cheveux commun), alors ces traits visuels peuvent apparaître dans les prédictions.

Pour les raisons ci-dessus, nous recommandons que toute enquête plus approfondie ou utilisation pratique de cette technologie soit soigneusement testée pour s'assurer que les données de formation sont représentatives de la population d'utilisateurs prévue. Si ce n'est pas le cas, des données plus représentatives devraient être largement collectées .
Catégories : Dans notre section expérimentale, nous mentionnons les catégories démographiques inférées telles que "Blanc" et "Asiatique". Ce sont des catégories définies et utilisées par un classificateur d'attributs de visage commercial (Face++), et n'ont été utilisées que pour l'évaluation dans cet article. Notre modèle n'est pas fourni avec et n'utilise à aucun moment ces informations.

Concernant les usages, certains pensent qu'une employabilité commerciale de cet algorithme serait la possibilité de générer une image représentative de l'interlocuteur lorsque l'on est en train de téléphoner ou d'écouter la radio.

Source : Speech2Face

Et vous ?

Que pensez-vous de Speech2Face ?

Entrevoyez-vous des usages ? Lesquels ?

Voir aussi :

Deux chercheurs ont trouvé plus de 1000 faux profils sur LinkedIn qui ont utilisés des visages générés par l'IA, plus de 70 entreprises ont créé de faux profils pour conclure des ventes

L'IA NeRF de NVIDIA permet de reconstruire presque instantanément une scène 3D à partir d'une poignée d'images 2D, Instant NeRF n'a besoin que de quelques secondes pour s'entraîner

Le générateur d'images de l'IA DALL-E d'OpenAI peut désormais modifier des photos, les chercheurs peuvent s'inscrire pour le tester

Plus de 70 % des individus souhaitent que l'IA les aide plutôt que de faire tout le travail ou de ne rien faire, en effectuant des tâches simples comme les calculs ou la simplification de procédures

Vous avez lu gratuitement 633 articles depuis plus d'un an.
Soutenez le club developpez.com en souscrivant un abonnement pour que nous puissions continuer à vous proposer des publications.

Une erreur dans cette actualité ? Signalez-nous-la !

Votre nom : Votre e-mail :

Décrivez l'erreur que vous souhaitez porter à notre connaissance :