
elle a besoin au minimum de trois secondes de parole pour générer un visage
Les photographies sont réalisées à l'aide de la lumière. Et si des portraits de personnes pouvaient être réalisés avec le son de leur voix ? Les chercheurs en intelligence artificielle ont travaillé sur la reconstruction du visage d'une personne en utilisant uniquement un court enregistrement audio de cette personne en train de parler. Les résultats ne sont pas encore parfaits, mais dans certains cas, ils sont sacrément proches du visage d'origine. Les scientifiques du Computer Science and Artificial Intelligence Laboratory (CSAIL) au MIT ont publié pour la première fois un algorithme d'IA appelé Speech2Face dans un article en 2019. « Combien pouvons-nous déduire de l'apparence d'une personne à partir de la façon dont elle parle ? », peut-on lire sur le résumé. « Nous étudions la tâche de reconstruire une image faciale d'une personne à partir d'un court enregistrement audio de cette personne qui parle ». Bien sûr, ils ont précisé : « Notez que notre objectif n'est pas de reconstruire une image précise de la personne, mais plutôt de récupérer des traits physiques caractéristiques qui sont corrélés avec le discours d'entrée ».
La technologie de Speech2Face affiche des rendus très photoréalistes qui sont également trop génériques pour identifier une personne en particulier. Mais elle permet d'établir un profil suffisamment précis avec l'ethnie, le sexe et l'âge du sujet. Une technologie capable d'estimer ces deux facteurs existait déjà, mais la composante ethnique est une nouveauté de l'IA Speech2Face.
La technologie continue de croître à pas de géant, s'appuyant sur divers domaines pour explorer de nouvelles capacités et fonctionnalités. L'une d'entre elles est de pouvoir « reconstruire » le visage d'une personne à travers un fragment de voix. De nombreux résultats montrent une grande similitude avec la personne derrière la voix.
Le document explique que l'objectif des chercheurs Tae-Hyun On, Tali Dekel, Changil Kim, Inbar Mosseri, William T. Freeman et Michael Rubinstein du MIT Science and Research Program n'est pas de reconstruire à l'identique les visages des personnes mais de faire une image avec les caractéristiques physiques liées à l'audio analysé.
Pour y parvenir, ils ont utilisé, conçu et formé un réseau de neurones profonds qui a analysé des millions de vidéos prises sur YouTube où il y a des gens qui parlent. Au cours de la formation, le modèle a appris à corréler les voix avec les visages , ce qui lui a permis de produire des images avec des attributs physiques similaires aux locuteurs, notamment l'âge, le sexe et l'origine ethnique. Le fonctionnement de l'algorithme s'articule autour de l'utilisation de deux composants principaux :
- un encodeur ; qui extrait et enregistre le spectrogramme des ondes audio, en reconnaissant une série de caractéristiques clés de celui-ci
- un décodeur ; qui sur la base des caractéristiques précitées génère une image du visage, représenté de face et avec un geste neutre
Il n'y a eu aucune implication humaine dans le processus de formation, car les chercheurs n'ont pas eu besoin d'étiqueter manuellement des sous-ensembles de données - l'IA a simplement reçu une énorme quantité de vidéos et a été chargée de déterminer les corrélations entre les caractéristiques vocales et les caractéristiques faciales.
« Nous avons conçu et formé un réseau neuronal profond pour effectuer cette tâche en utilisant des millions de vidéos naturelles de personnes parlant depuis Internet/Youtube. Au cours de la formation, notre modèle apprend les corrélations audiovisuelles, voix-visage qui lui permettent de produire des images qui capturent divers attributs physiques des locuteurs tels que l'âge, le sexe et l'origine ethnique. Cela se fait de manière auto-supervisée, en utilisant la cooccurrence naturelle des visages et de la parole dans les vidéos Internet, sans qu'il soit nécessaire de modéliser explicitement les attributs. Nos reconstructions, obtenues directement à partir de l'audio, révèlent les corrélations entre les visages et les voix. Nous évaluons et quantifions numériquement comment - et de quelle manière - nos reconstructions Speech2Face à partir de l'audio ressemblent aux vraies images de visage des locuteurs ».
Une fois formée, l'IA était remarquablement douée pour créer des portraits basés uniquement sur des enregistrements vocaux qui ressemblaient à ce à quoi ressemblait réellement l'orateur.
À gauche, le vrai visage (la référence), à droite, l'image reconstruite par l'IA grâce au son de la voix
Pour analyser plus en détail la précision des reconstructions faciales, les chercheurs ont construit un « décodeur de visage » qui crée une reconstruction standardisée du visage d'une personne à partir d'une image fixe tout en ignorant les « variations non pertinentes » telles que la pose et l'éclairage. Cela a permis aux scientifiques de comparer plus facilement les reconstructions vocales avec les caractéristiques réelles du locuteur.
Encore une fois, les résultats de l'IA étaient étonnamment proches des vrais visages dans un grand pourcentage de cas.
À droite, l'image reconstruite par l'IA grâce au son de la voix. Au milieu, le travail du « décodeur de visage ». À gauche, le vrai visage (la référence)
Incidemment, des enregistrements vocaux plus longs conduisent à un meilleur résultat. Les chercheurs l'ont montré avec des exemples qui ont été créés à partir d'extraits audio de trois ou six secondes.
Faiblesses et problèmes éthiques
Dans certains cas, l'IA avait du mal à déterminer à quoi pouvait ressembler le locuteur. Des facteurs tels que l'accent, la langue parlée et la tonalité de la voix étaient des facteurs qui provoquaient des « incompatibilités discours-visage » dans lesquelles le sexe, l'âge ou l'origine ethnique étaient incorrects.
Exemples d'erreurs. La première photo correspond au visage de la personne dans l'audio et la seconde à celui recréé par le programme
Les personnes à voix aigue (y compris les garçons plus jeunes) étaient souvent identifiées comme des femmes tandis que les personnes à voix grave étaient étiquetées comme des hommes. Un homme asiatique parlant anglais avait une apparence moins asiatique que lorsqu'il parlait chinois. En clair, si la même personne parle sa langue maternelle, l'origine ethnique correcte est attribuée.
Les chercheurs espèrent obtenir des résultats encore plus précis s'ils fournissent davantage de données d'entraînement plus représentatives de l'ensemble de la population mondiale. Ils sont conscients que l'IA est actuellement aux prises avec des préjugés racistes et tentent de remédier à cette situation.
Les chercheurs ont souligné que, bien qu'il s'agisse d'une enquête purement académique, ils pensaient qu'il est important de discuter explicitement d'un ensemble de considérations éthiques en raison de la sensibilité potentielle des informations faciales :
[LIST][*]Vie privée : Comme mentionné, notre méthode ne peut pas récupérer la véritable identité d'une personne à partir de sa voix (c'est-à-dire une image exacte de son visage). En effet, notre modèle est formé pour capturer les caractéristiques visuelles (liées à l'âge, au sexe, etc.) qui sont communes à de nombreux individus, et uniquement dans les cas où il existe des preuves suffisamment solides pour relier ces caractéristiques visuelles aux attributs vocaux / vocaux dans le données. En tant que tel, le modèle ne produira que des visages d'apparence moyenne, avec des caractéristiques visuelles caractéristiques qui sont corrélées avec le discours d'entrée. Il ne produira pas d'images d'individus spécifiques.[*]Corrélations voix-visage et biais des ensembles de données : Notre modèle est conçu pour révéler les corrélations statistiques qui existent entre les traits du visage et les voix des locuteurs dans les données d'entraînement. Les données d'entraînement que nous utilisons sont une collection de vidéos éducatives de YouTube et ne représentent pas de manière égale l'ensemble de la population mondiale. Par conséquent, le modèle --- comme c'est le cas avec tout modèle d'apprentissage automatique --- est affecté par cette distribution inégale des données.
Plus précisément, si un...
La fin de cet article est réservée aux abonnés. Soutenez le Club Developpez.com en prenant un abonnement pour que nous puissions continuer à vous proposer des publications.