IdentifiantMot de passe
Loading...
Mot de passe oublié ?Je m'inscris ! (gratuit)

Vous êtes nouveau sur Developpez.com ? Créez votre compte ou connectez-vous afin de pouvoir participer !

Vous devez avoir un compte Developpez.com et être connecté pour pouvoir participer aux discussions.

Vous n'avez pas encore de compte Developpez.com ? Créez-en un en quelques instants, c'est entièrement gratuit !

Si vous disposez déjà d'un compte et qu'il est bien activé, connectez-vous à l'aide du formulaire ci-dessous.

Identifiez-vous
Identifiant
Mot de passe
Mot de passe oublié ?
Créer un compte

L'inscription est gratuite et ne vous prendra que quelques instants !

Je m'inscris !

EnCodec, le codec audio de Meta, alimenté par l'IA, promet une compression 10x supérieure à celle des MP,
Et serait comparable au dernier codec Lyra-v2 de Google

Le , par Bruno

14PARTAGES

4  0 
EnCodec, le codec audio de Meta, alimenté par l'IA, promet une compression 10x supérieure à celle des MP,
et serait comparable au dernier codec Lyra-v2 de Google

La semaine dernière, Meta a annoncé une méthode de compression audio alimentée par l'IA, appelée EnCodec, qui serait capable de compresser le son 10 fois plus petit que le format MP3 à 64 kbps, sans perte de qualité. Selon Meta, cette technique pourrait améliorer considérablement la qualité sonore des discours sur les connexions à faible bande passante, comme les appels téléphoniques dans les zones où le service est irrégulier. Les chercheurs de Meta auraient obtenu des résultats de pointe en matière de compression audio vocale à faible débit (1,5 kbps à 12 kbps), évalués par des annotateurs humains qui ont comparé plusieurs méthodes de compression, dont le dernier codec Lyra-v2 de Google, avec la méthode non compressée et les ont classées en conséquence.

Meta a présenté EnCodec le 25 octobre dans un article intitulé « High Fidelity Neural Audio Compression », rédigé par les chercheurs de Meta AI Alexandre Defossez, Jade Copet, Gabriel Synnaeve et Yossi Adi. Meta a également résumé la recherche sur son blog consacré à EnCodec.


Meta décrit sa méthode comme un système en trois parties entraîné à compresser l'audio à une taille cible souhaitée. Tout d'abord, l'encodeur transforme les données non compressées en une représentation « d'espace latent » de fréquence d'image inférieure. Le « quantificateu » comprime ensuite la représentation à la taille cible tout en conservant la trace des informations les plus importantes qui seront utilisées ultérieurement pour reconstruire le signal original. (C'est ce signal compressé qui est envoyé sur un réseau ou enregistré sur un disque). Enfin, le décodeur retransforme les données compressées en audio en temps réel à l'aide d'un réseau neuronal sur une seule unité centrale.

L'utilisation de discriminateurs par Meta s'avère essentielle pour créer une méthode permettant de compresser l'audio autant que possible sans perdre les éléments clés d'un signal qui le rendent distinctif et reconnaissable :

« La clé de la compression avec perte est d'identifier les changements qui ne seront pas perceptibles par les humains, car une reconstruction parfaite est impossible à bas débit. Pour ce faire, nous utilisons des discriminateurs pour améliorer la qualité perceptive des échantillons générés. Cela crée un jeu du chat et de la souris où le travail du discriminateur est de différencier les échantillons réels des échantillons reconstruits. Le modèle de compression tente de générer des échantillons pour tromper les discriminateurs en poussant les échantillons reconstruits à être plus similaires perceptivement aux échantillons originaux. »

L’équipe de recherche fondamentale sur l'IA de Meta a construit un système en trois parties et l'a entraîné de bout en bout à compresser les données audio à la taille visée. Ces données peuvent ensuite être décodées à l'aide d'un réseau neuronal. Les chercheurs obtiennent un taux de compression d'environ 10x par rapport au MP3 à 64 kbps, sans perte de qualité.


La nouvelle approche permet de compresser et de décompresser l'audio en temps réel pour obtenir des réductions de taille à la pointe de la technologie. Il reste encore du travail à faire, mais à terme, cela pourrait conduire à des améliorations telles que la prise en charge d'appels plus rapides et de meilleure qualité dans des conditions de réseau peu favorables et la fourniture d'expériences métavers riches sans nécessiter d'améliorations majeures de la bande passante.

Bien que ces techniques ne couvrent pas encore la vidéo, il s'agit du début d'une initiative en cours dont l'objectif est de réaliser des avancées qui pourraient améliorer des expériences telles que la vidéoconférence, le streaming de films et les jeux avec des utilisateurs dans la RV.

Technique de compression alimentée par l'IA

Codecs

Les codecs, qui agissent comme des codeurs et des décodeurs pour les flux de données, contribuent à la plupart des compressions audio que les internautes utilisent actuellement. Parmi les exemples de codecs couramment utilisés, citons MP3, Opus et EVS. Les codecs classiques comme ceux-ci décomposent le signal entre différentes fréquences et l'encodent aussi efficacement que possible. La plupart des codecs classiques tirent parti de la connaissance de l'audition humaine (psychoacoustique) mais disposent d'un ensemble fini ou donné de moyens artisanaux pour coder et décoder efficacement le fichier.

« Afin de repousser les limites du possible, nous avons besoin de l'aide de l'IA. Nous avons créé Encodec, un réseau neuronal qui est entraîné de bout en bout pour reconstruire le signal d'entrée », déclare Meta. Il se compose de trois parties :

  • L'encodeur, qui prend les données non compressées et les transforme en une représentation de plus haute dimension et de plus faible fréquence d'images ;
  • Le quantificateur, qui comprime cette représentation à la taille visée. Cette représentation compressée est celle qui est stockée sur le disque envoyé sur le réseau. C'est l'équivalent du fichier .mp3 sur un ordinateur ;
  • Le décodeur est l'étape finale. Il retransforme le signal compressé en une forme d'onde aussi similaire que possible à l'original. La clé de la compression avec perte est d'identifier les changements qui ne seront pas perceptibles par l'homme, car une reconstruction parfaite est impossible à bas débit.


Les chercheurs de Meta auraient obtenu des résultats de pointe en matière de compression audio vocale à faible débit (1,5 kbps à 12 kbps), évalués par des annotateurs humains qui ont comparé plusieurs méthodes de compression, dont le dernier codec Lyra-v2 de Google, avec la méthode non compressée et les ont classées en conséquence. « Pour tous les niveaux de bande passante et de qualité, notre modèle code et décode l'audio en temps réel sur un seul cœur de processeur », déclare Meta.

Google a annoncé la seconde version de Lyra

Lyra est un codec audio avec perte développé par Google et conçu pour compresser la parole à des débits très faibles. Tout comme EnCodec de Meta, il compresse les données à l'aide d'un algorithme basé sur l'apprentissage automatique. Google a mis en libre accès la première version de Lyra sur GitHub l'année dernière. Certaines personnes ont corrigé et formaté le code de Lyra, construit une intégration continue pour le projet et même ajouté le support de Web Assembly.

Google a annoncé la seconde version de Lyra en septembre de cette année. Elle apporte une nouvelle architecture qui bénéficie d'un plus grand nombre de plateformes, offre des capacités de débit binaire évolutives, a de meilleures performances et génère également un son de meilleure qualité.

Nouvelle architecture de Lyra

Lyra V2 est basé sur un codec audio neuronal de bout en bout appelé SoundStream. L'architecture comporte un quantificateur vectoriel résiduel (RVQ) situé avant et après le canal de transmission, qui quantifie les informations codées dans un flux binaire et les reconstruit du côté du d...
La fin de cet article est réservée aux abonnés. Soutenez le Club Developpez.com en prenant un abonnement pour que nous puissions continuer à vous proposer des publications.

Une erreur dans cette actualité ? Signalez-nous-la !

Avatar de anasynth
Candidat au Club https://www.developpez.com
Le 07/11/2022 à 22:32
C'est curieux de comparer un codec de voix avec un codec audio général comme MP3 qui n'est pas utilisé en téléphonie.
Il aurait été plus judicieux de le comparer avec AMR-WB ou EVS qui travaillent sur des bandes passantes similaires (AMR-WB est capable de transmettre sur 6kb/s).
On ne sait d'ailleurs rien de la sensibilité au bruit ambiant de ce modèle ...
2  0