Meta a présenté EnCodec le 25 octobre dans un article intitulé « High Fidelity Neural Audio Compression », rédigé par les chercheurs de Meta AI Alexandre Defossez, Jade Copet, Gabriel Synnaeve et Yossi Adi. Meta a également résumé la recherche sur son blog consacré à EnCodec.
Meta décrit sa méthode comme un système en trois parties entraîné à compresser l'audio à une taille cible souhaitée. Tout d'abord, l'encodeur transforme les données non compressées en une représentation « d'espace latent » de fréquence d'image inférieure. Le « quantificateu » comprime ensuite la représentation à la taille cible tout en conservant la trace des informations les plus importantes qui seront utilisées ultérieurement pour reconstruire le signal original. (C'est ce signal compressé qui est envoyé sur un réseau ou enregistré sur un disque). Enfin, le décodeur retransforme les données compressées en audio en temps réel à l'aide d'un réseau neuronal sur une seule unité centrale.
L'utilisation de discriminateurs par Meta s'avère essentielle pour créer une méthode permettant de compresser l'audio autant que possible sans perdre les éléments clés d'un signal qui le rendent distinctif et reconnaissable :
« La clé de la compression avec perte est d'identifier les changements qui ne seront pas perceptibles par les humains, car une reconstruction parfaite est impossible à bas débit. Pour ce faire, nous utilisons des discriminateurs pour améliorer la qualité perceptive des échantillons générés. Cela crée un jeu du chat et de la souris où le travail du discriminateur est de différencier les échantillons réels des échantillons reconstruits. Le modèle de compression tente de générer des échantillons pour tromper les discriminateurs en poussant les échantillons reconstruits à être plus similaires perceptivement aux échantillons originaux. »
L’équipe de recherche fondamentale sur l'IA de Meta a construit un système en trois parties et l'a entraîné de bout en bout à compresser les données audio à la taille visée. Ces données peuvent ensuite être décodées à l'aide d'un réseau neuronal. Les chercheurs obtiennent un taux de compression d'environ 10x par rapport au MP3 à 64 kbps, sans perte de qualité.
La nouvelle approche permet de compresser et de décompresser l'audio en temps réel pour obtenir des réductions de taille à la pointe de la technologie. Il reste encore du travail à faire, mais à terme, cela pourrait conduire à des améliorations telles que la prise en charge d'appels plus rapides et de meilleure qualité dans des conditions de réseau peu favorables et la fourniture d'expériences métavers riches sans nécessiter d'améliorations majeures de la bande passante.
Bien que ces techniques ne couvrent pas encore la vidéo, il s'agit du début d'une initiative en cours dont l'objectif est de réaliser des avancées qui pourraient améliorer des expériences telles que la vidéoconférence, le streaming de films et les jeux avec des utilisateurs dans la RV.
Technique de compression alimentée par l'IA
Codecs
Les codecs, qui agissent comme des codeurs et des décodeurs pour les flux de données, contribuent à la plupart des compressions audio que les internautes utilisent actuellement. Parmi les exemples de codecs couramment utilisés, citons MP3, Opus et EVS. Les codecs classiques comme ceux-ci décomposent le signal entre différentes fréquences et l'encodent aussi efficacement que possible. La plupart des codecs classiques tirent parti de la connaissance de l'audition humaine (psychoacoustique) mais disposent d'un ensemble fini ou donné de moyens artisanaux pour coder et décoder efficacement le fichier.
« Afin de repousser les limites du possible, nous avons besoin de l'aide de l'IA. Nous avons créé Encodec, un réseau neuronal qui est entraîné de bout en bout pour reconstruire le signal d'entrée », déclare Meta. Il se compose de trois parties :
- L'encodeur, qui prend les données non compressées et les transforme en une représentation de plus haute dimension et de plus faible fréquence d'images ;
- Le quantificateur, qui comprime cette représentation à la taille visée. Cette représentation compressée est celle qui est stockée sur le disque envoyé sur le réseau. C'est l'équivalent du fichier .mp3 sur un ordinateur ;
- Le décodeur est l'étape finale. Il retransforme le signal compressé en une forme d'onde aussi similaire que possible à l'original. La clé de la compression avec perte est d'identifier les changements qui ne seront pas perceptibles par l'homme, car une reconstruction parfaite est impossible à bas débit.
Les chercheurs de Meta auraient obtenu des résultats de pointe en matière de compression audio vocale à faible débit (1,5 kbps à 12 kbps), évalués par des annotateurs humains qui ont comparé plusieurs méthodes de compression, dont le dernier codec Lyra-v2 de Google, avec la méthode non compressée et les ont classées en conséquence. « Pour tous les niveaux de bande passante et de qualité, notre modèle code et décode l'audio en temps réel sur un seul cœur de processeur », déclare Meta.
Google a annoncé la seconde version de Lyra
Lyra est un codec audio avec perte développé par Google et conçu pour compresser la parole à des débits très faibles. Tout comme EnCodec de Meta, il compresse les données à l'aide d'un algorithme basé sur l'apprentissage automatique. Google a mis en libre accès la première version de Lyra sur GitHub l'année dernière. Certaines personnes ont corrigé et formaté le code de Lyra, construit une intégration continue pour le projet et même ajouté le support de Web Assembly.
Google a annoncé la seconde version de Lyra en septembre de cette année. Elle apporte une nouvelle architecture qui bénéficie d'un plus grand nombre de plateformes, offre des capacités de débit binaire évolutives, a de meilleures performances et génère également un son de meilleure qualité.
Nouvelle architecture de Lyra
Lyra V2 est basé sur un codec audio neuronal de bout en bout appelé SoundStream. L'architecture comporte un quantificateur vectoriel résiduel (RVQ) situé avant et après le canal de transmission, qui quantifie les informations codées dans un flux binaire et les reconstruit du côté du décodeur.
L'intégration du RVQ dans l'architecture permet de modifier le débit binaire de Lyra V2 à tout moment en sélectionnant le nombre de quantificateurs à utiliser. Lorsque plus de quantificateurs sont utilisés, une meilleure qualité audio est générée (au prix d'un débit binaire plus élevé). Dans Lyra V2, Google supporte trois débits binaires différents : 3,2 kps, 6 kbps et 9,2 kbps. Cela permet aux développeurs de choisir le débit binaire le plus adapté aux conditions de leur réseau et à leurs exigences de qualité.
Le modèle de Lyra V2 est exporté dans TensorFlow Lite, la solution multiplateforme de TensorFlow pour les appareils mobiles et embarqués, qui prend en charge diverses plateformes et accélérations matérielles. Le code est testé sur les téléphones Android et Linux, avec un support expérimental pour Mac et Windows. Le fonctionnement sur iOS et d'autres plateformes embarquées n'est pas actuellement pris en charge. De plus, ce paradigme ouvre Lyra à toute future plateforme supportée par TensorFlow Lite.
Avec la nouvelle architecture, le délai est réduit de 100 ms avec la version précédente à 20 ms. À cet égard, Lyra V2 est comparable au codec audio Opus le plus utilisé pour le WebRTC, qui présente un retard typique de 26,5 ms, 46,5 ms et 66,5 ms.
Lyra V2 encode et décode également cinq fois plus vite que la version précédente. Sur un téléphone Pixel 6 Pro, Lyra V2 met 0,57 ms pour coder et décoder une trame audio de 20 ms, ce qui est 35 fois plus rapide que le temps réel. La complexité réduite signifie que davantage de téléphones peuvent exécuter Lyra V2 en temps réel que V1, et que la consommation globale de la batterie est réduite.
Grâce à l'avancée de la recherche sur l'apprentissage automatique au fil des ans, la qualité de l'audio généré est également améliorée. Les tests d'écoutesur Lyra V2 montrent que la qualité audio (mesurée en score MUSHRA, une indication de la qualité subjective) de Lyra V2 à 3,2 kbps, 6 kbps, et 9.2 kbps est comparable à celle de l'Opus à 10 kbps, 13 kbps et 14 kbps respectivement.
Sources : Meta, Google
Et vous ?
Quel est votre avis sur le sujet ?
Quelle appréciation faites vous d'EnCodec, le codec audio de Meta, alimenté par l'IA ?
Selon vous, est-il préférable au codec Lyra-V2 de Google ?
Voir aussi :
Google rend open source le codec audio Lyra, optimisé pour la plateforme Android ARM 64-bit, pour permettre aux développeurs de maintenir leurs applications
Apple ajoute deux nouvelles voix à son assistant vocal Siri, et ne propose plus de voix féminine comme choix par défaut