La semaine dernière, Meta a annoncé une méthode de compression audio alimentée par l'IA, appelée EnCodec, qui serait capable de compresser le son 10 fois plus petit que le format MP3 à 64 kbps, sans perte de qualité. Selon Meta, cette technique pourrait améliorer considérablement la qualité sonore des discours sur les connexions à faible bande passante, comme les appels téléphoniques dans les zones où le service est irrégulier. Les chercheurs de Meta auraient obtenu des résultats de pointe en matière de compression audio vocale à faible débit (1,5 kbps à 12 kbps), évalués par des annotateurs humains qui ont comparé plusieurs méthodes de compression, dont le dernier codec Lyra-v2 de Google, avec la méthode non compressée et les ont classées en conséquence.Meta a présenté EnCodec le 25 octobre dans un article intitulé « High Fidelity Neural Audio Compression », rédigé par les chercheurs de Meta AI Alexandre Defossez, Jade Copet, Gabriel Synnaeve et Yossi Adi. Meta a également résumé la recherche sur son blog consacré à EnCodec.
Meta décrit sa méthode comme un système en trois parties entraîné à compresser l'audio à une taille cible souhaitée. Tout d'abord, l'encodeur transforme les données non compressées en une représentation « d'espace latent » de fréquence d'image inférieure. Le « quantificateu » comprime ensuite la représentation à la taille cible tout en conservant la trace des informations les plus importantes qui seront utilisées ultérieurement pour reconstruire le signal original. (C'est ce signal compressé qui est envoyé sur un réseau ou enregistré sur un disque). Enfin, le décodeur retransforme les données compressées en audio en temps réel à l'aide d'un réseau neuronal sur une seule unité centrale.
L'utilisation de discriminateurs par Meta s'avère essentielle pour créer une méthode permettant de compresser l'audio autant que possible sans perdre les éléments clés d'un signal qui le rendent distinctif et reconnaissable :
« La clé de la compression avec perte est d'identifier les changements qui ne seront pas perceptibles par les humains, car une reconstruction parfaite est impossible à bas débit. Pour ce faire, nous utilisons des discriminateurs pour améliorer la qualité perceptive des échantillons générés. Cela crée un jeu du chat et de la souris où le travail du discriminateur est de différencier les échantillons réels des échantillons reconstruits. Le modèle de compression tente de générer des échantillons pour tromper les discriminateurs en poussant les échantillons reconstruits à être plus similaires perceptivement aux échantillons originaux. »
L’équipe de recherche fondamentale sur l'IA de Meta a construit un système en trois parties et l'a entraîné de bout en bout à compresser les données audio à la taille visée. Ces données peuvent ensuite être décodées à l'aide d'un réseau neuronal. Les chercheurs obtiennent un taux de compression d'environ 10x par rapport au MP3 à 64 kbps, sans perte de qualité.
La nouvelle approche permet de compresser et de décompresser l'audio en temps réel pour obtenir des réductions de taille à la pointe de la technologie. Il reste encore du travail à faire, mais à terme, cela pourrait conduire à des améliorations telles que la prise en charge d'appels plus rapides et de meilleure qualité dans des conditions de réseau peu favorables et la fourniture d'expériences métavers riches sans nécessiter d'améliorations majeures de la bande passante.
Bien que ces techniques ne couvrent pas encore la vidéo, il s'agit du début d'une initiative en cours dont l'objectif est de réaliser des avancées qui pourraient améliorer des expériences telles que la vidéoconférence, le streaming de films et les jeux avec des utilisateurs dans la RV.
Technique de compression alimentée par l'IA
Codecs
Les codecs, qui agissent comme des codeurs et des décodeurs pour les flux de données, contribuent à la plupart des compressions audio que les internautes utilisent actuellement. Parmi les exemples de codecs couramment utilisés, citons MP3, Opus et EVS. Les codecs classiques comme ceux-ci décomposent le signal entre différentes fréquences et l...
La fin de cet article est réservée aux abonnés. Soutenez le Club Developpez.com en prenant un abonnement pour que nous puissions continuer à vous proposer des publications.