NVIDIA Research a inventé un moyen d'utiliser l'IA pour réduire considérablement la bande passante des appels vidéo tout en améliorant simultanément la qualité.
Ce que les chercheurs ont réalisé a des résultats remarquables : en remplaçant le codec vidéo traditionnel h.264 par un réseau neuronal, ils ont réussi à réduire la bande passante requise pour un appel vidéo d'un ordre de grandeur. Dans un exemple, le débit de données requis est passé de 97,28 Ko / trame à 0,1165 Ko / trame, soit une réduction à 0,1% de la bande passante requise.
Le mécanisme de la vidéoconférence assistée par IA remplace les images vidéo complètes traditionnelles par des données neuronales. En règle générale, les appels vidéo fonctionnent en envoyant des images codées h.264 au destinataire, et ces images sont extrêmement lourdes en données. Avec les appels vidéo assistés par IA, l'expéditeur envoie d'abord une image de référence de l'appelant. Ensuite, au lieu d'envoyer un flux d'images remplies de pixels, il envoie des points de référence spécifiques sur l'image autour des yeux, du nez et de la bouche.
Un GAN côté récepteur utilise alors l'image de référence combinée avec les points clés pour reconstruire les images suivantes. Parce que les points clés sont tellement plus petits que les images de pixels complets, beaucoup moins de données sont envoyées et par conséquent, une connexion Internet peut être beaucoup plus lente, tout en offrant un chat vidéo clair et fonctionnel.
Mécanisme
Dans l'exemple initial des chercheurs, ils montrent qu'une connexion Internet rapide donne à peu près la même qualité de flux en utilisant à la fois la méthode traditionnelle et la nouvelle méthode de réseau neuronal. Mais ce qui est le plus impressionnant, ce sont les exemples suivants, où les vitesses Internet montrent une dégradation considérable de la qualité en utilisant la méthode traditionnelle, tandis que le réseau neuronal est capable de produire des flux vidéo extrêmement clairs et sans artefacts.
Le réseau neuronal peut fonctionner même lorsque le sujet porte un masque, des lunettes, des écouteurs ou un chapeau.
Avec cette technologie, davantage de personnes peuvent profiter d'un plus grand nombre de fonctionnalités tout en utilisant moins de données internet.
Mais les cas d'utilisation de la technologie ne s'arrêtent pas là : parce que le réseau neuronal utilise des données de référence au lieu du flux complet, la technologie permet à un individu de changer l’angle de la caméra pour apparaître comme s’il regardait directement l’écran même s’il ne le faisait pas. Appelé « Free View », cela permettrait à une personne disposant d'une caméra séparée hors écran de garder un contact visuel avec ceux qui participent à un appel vidéo.
NVIDIA peut également utiliser cette même méthode pour les animations de personnages. En utilisant différents points clés du flux d'origine, il est possible d’ajouter des vêtements, des cheveux ou même animer des personnages de jeux vidéo.
L'utilisation de ce type de réseau de neurones aura d'énormes implications comme servir à soulager les réseaux ou donner aux utilisateurs plus de liberté lorsqu'ils travaillent à distance. Cependant, en raison de la façon dont cette technologie fonctionne, il y aura presque certainement des questions sur la façon dont elle peut être déployée et conduire à des problèmes possibles avec des « deepfake » qui deviennent plus crédibles et plus difficiles à détecter.
GAN
Le concept de GAN a été introduit pour la première fois en 2014 par Ian Goodfellow, et depuis lors, Nvidia est à la pointe de la technologie. Tero Karras, chercheur principal de la société, a dirigé de nombreuses études sur le GAN.
Un GAN est un modèle génératif où deux réseaux sont placés en compétition dans un scénario de théorie des jeux. Le premier réseau est le générateur, il génère un échantillon (ex. une image), tandis que son adversaire, le discriminateur essaie de détecter si un échantillon est réel ou bien s'il est le résultat du générateur. L'apprentissage peut être modélisé comme un jeu à somme nulle. Ces programmes informatiques se font concurrence des millions de fois afin d’affiner leurs compétences en matière de génération d’images jusqu’à ce qu’ils aient la capacité de créer des images complètes.
S’il fallait simplifier, nous pourrions dire que le GAN implique que deux réseaux travaillent l’un contre l’autre. Le premier va être nourri en données brutes qu’il va décomposer. À partir de ces données, il va tenter de créer une image. Il va ensuite soumettre cette image à un autre réseau qui, lui, n’a que des photos ou images réelles dans sa base de données. Ce deuxième réseau va alors juger de l’image et va informer le premier de son jugement. Si l’image ne ressemble pas au résultat attendu, le premier algorithme va recommencer le processus. Si le résultat correspond, il va être informé qu’il est sur la bonne voie et finir par comprendre ce qu’est une bonne image. Une fois qu’il est suffisamment entraîné, il peut en produire à la chaîne.
A ce propos, NVIDIA Research avait publié en open source le code de StylGAN, le GAN qui avait rendu possible la génération de visages qui débordaient de réalisme.
Source : NVIDIA (vidéo de présentation dans le texte)
Et vous ?
Que pensez-vous de cette technologie ?
Seriez-vous prêt à l'essayer ?
Quelles implications pouvez-vous entrevoir ?
Un débat sur l'étique doit-il être sérieusement mené avant de publier de telles recherches ?