Les photographies sont réalisées à l'aide de la lumière. Et si des portraits de personnes pouvaient être réalisés avec le son de leur voix ? Les chercheurs en intelligence artificielle ont travaillé sur la reconstruction du visage d'une personne en utilisant uniquement un court enregistrement audio de cette personne en train de parler. Les résultats ne sont pas encore parfaits, mais dans certains cas, ils sont sacrément proches du visage d'origine. Les scientifiques du Computer Science and Artificial Intelligence Laboratory (CSAIL) au MIT ont publié pour la première fois un algorithme d'IA appelé Speech2Face dans un article en 2019. « Combien pouvons-nous déduire de l'apparence d'une personne à partir de la façon dont elle parle ? », peut-on lire sur le résumé. « Nous étudions la tâche de reconstruire une image faciale d'une personne à partir d'un court enregistrement audio de cette personne qui parle ». Bien sûr, ils ont précisé : « Notez que notre objectif n'est pas de reconstruire une image précise de la personne, mais plutôt de récupérer des traits physiques caractéristiques qui sont corrélés avec le discours d'entrée ». La technologie de Speech2Face affiche des rendus très photoréalistes qui sont également trop génériques pour identifier une personne en particulier. Mais elle permet d'établir un profil suffisamment précis avec l'ethnie, le sexe et l'âge du sujet. Une technologie capable d'estimer ces deux facteurs existait déjà, mais la composante ethnique est une nouveauté de l'IA Speech2Face.
La technologie continue de croître à pas de géant, s'appuyant sur divers domaines pour explorer de nouvelles capacités et fonctionnalités. L'une d'entre elles est de pouvoir « reconstruire » le visage d'une personne à travers un fragment de voix. De nombreux résultats montrent une grande similitude avec la personne derrière la voix.
Le document explique que l'objectif des chercheurs Tae-Hyun On, Tali Dekel, Changil Kim, Inbar Mosseri, William T. Freeman et Michael Rubinstein du MIT Science and Research Program n'est pas de reconstruire à l'identique les visages des personnes mais de faire une image avec les caractéristiques physiques liées à l'audio analysé.
Pour y parvenir, ils ont utilisé, conçu et formé un réseau de neurones profonds qui a analysé des millions de vidéos prises sur YouTube où il y a des gens qui parlent. Au cours de la formation, le modèle a appris à corréler les voix avec les visages , ce qui lui a permis de produire des images avec des attributs physiques similaires aux locuteurs, notamment l'âge, le sexe et l'origine ethnique. Le fonctionnement de l'algorithme s'articule autour de l'utilisation de deux composants principaux :
- un encodeur ; qui extrait et enregistre le spectrogramme des ondes audio, en reconnaissant une série de caractéristiques clés de celui-ci
- un décodeur ; qui sur la base des caractéristiques précitées génère une image du visage, représenté de face et avec un geste neutre
Il n'y a eu aucune implication humaine dans le processus de formation, car les chercheurs n'ont pas eu besoin d'étiqueter manuellement des sous-ensembles de données - l'IA a simplement reçu une énorme quantité de vidéos et a été chargée de déterminer les corrélations entre les caractéristiques vocales et les caractéristiques faciales.
« Nous avons conçu et formé un réseau neuronal profond pour effectuer cette tâche en utilisant des millions de vidéos naturelles de personnes parlant depuis Internet/Youtube. Au cours de la formation, notre modèle apprend les corrélations audiovisuelles, voix-visage qui lui permettent de produire des images qui capturent divers attributs physiques des locuteurs tels que l'âge, le sexe et l'origine ethnique. Cela se fait de manière auto-supervisée, en utilisant la cooccurrence naturelle des visages et de la parole dans les vidéos Internet, sans qu'il soit nécessaire de modéliser explicitement les attributs. Nos reconstructions, obtenues directement à partir de l'audio, révèlent les corrélations entre les visages et les voix. Nous évaluons et quantifions numériquement comment - et de quelle manière - nos reconstructions Speech2Face à partir de l'audio ressemblent aux vraies images de visage des locuteurs ».
Une fois formée, l'IA était remarquablement douée pour créer des portraits basés uniquement sur des enregistrements vocaux qui ressemblaient à ce à quoi ressemblait réellement l'orateur.
À gauche, le vrai visage (la référence), à droite, l'image reconstruite par l'IA grâce au son de la voix
Pour analyser plus en détail la précision des reconstructions faciales, les chercheurs ont construit un « décodeur de visage » qui crée une reconstruction standardisée du visage d'une personne à partir d'une image fixe tout en ignorant les « variations non pertinentes »...
La fin de cet article est réservée aux abonnés. Soutenez le Club Developpez.com en prenant un abonnement pour que nous puissions continuer à vous proposer des publications.

