Vous êtes nouveau sur Developpez.com ? Créez votre compte ou connectez-vous afin de pouvoir participer !

Vous devez avoir un compte Developpez.com et être connecté pour pouvoir participer aux discussions.

Vous n'avez pas encore de compte Developpez.com ? Créez-en un en quelques instants, c'est entièrement gratuit !

Si vous disposez déjà d'un compte et qu'il est bien activé, connectez-vous à l'aide du formulaire ci-dessous.

Identifiez-vous
Identifiant
Mot de passe
Mot de passe oublié ?
Créer un compte

L'inscription est gratuite et ne vous prendra que quelques instants !

Je m'inscris !

NVIDIA utilise l'IA pour réduire la bande passante sur les appels vidéo
La technologie permet aux internautes de profiter d'un plus grand nombre de fonctionnalités tout en utilisant moins de données

Le , par Stéphane le calme

17PARTAGES

11  0 
La génération d’images à l’aide de l’intelligence artificielle (IA) est de plus en plus réussie et ouvre les portes de nouvelles possibilités d’utilisation de l’IA. Les prouesses remarquables observées ces dernières années dans les techniques de génération d’images sont dues à un type spécial d'algorithme d'intelligence artificielle appelé generative adversarial network (GAN, ou, en français, réseau antagoniste génératif).

NVIDIA Research a inventé un moyen d'utiliser l'IA pour réduire considérablement la bande passante des appels vidéo tout en améliorant simultanément la qualité.

Ce que les chercheurs ont réalisé a des résultats remarquables : en remplaçant le codec vidéo traditionnel h.264 par un réseau neuronal, ils ont réussi à réduire la bande passante requise pour un appel vidéo d'un ordre de grandeur. Dans un exemple, le débit de données requis est passé de 97,28 Ko / trame à 0,1165 Ko / trame, soit une réduction à 0,1% de la bande passante requise.


Le mécanisme de la vidéoconférence assistée par IA remplace les images vidéo complètes traditionnelles par des données neuronales. En règle générale, les appels vidéo fonctionnent en envoyant des images codées h.264 au destinataire, et ces images sont extrêmement lourdes en données. Avec les appels vidéo assistés par IA, l'expéditeur envoie d'abord une image de référence de l'appelant. Ensuite, au lieu d'envoyer un flux d'images remplies de pixels, il envoie des points de référence spécifiques sur l'image autour des yeux, du nez et de la bouche.

Un GAN côté récepteur utilise alors l'image de référence combinée avec les points clés pour reconstruire les images suivantes. Parce que les points clés sont tellement plus petits que les images de pixels complets, beaucoup moins de données sont envoyées et par conséquent, une connexion Internet peut être beaucoup plus lente, tout en offrant un chat vidéo clair et fonctionnel.


Mécanisme

Dans l'exemple initial des chercheurs, ils montrent qu'une connexion Internet rapide donne à peu près la même qualité de flux en utilisant à la fois la méthode traditionnelle et la nouvelle méthode de réseau neuronal. Mais ce qui est le plus impressionnant, ce sont les exemples suivants, où les vitesses Internet montrent une dégradation considérable de la qualité en utilisant la méthode traditionnelle, tandis que le réseau neuronal est capable de produire des flux vidéo extrêmement clairs et sans artefacts.

Le réseau neuronal peut fonctionner même lorsque le sujet porte un masque, des lunettes, des écouteurs ou un chapeau.




Avec cette technologie, davantage de personnes peuvent profiter d'un plus grand nombre de fonctionnalités tout en utilisant moins de données internet.

Mais les cas d'utilisation de la technologie ne s'arrêtent pas là : parce que le réseau neuronal utilise des données de référence au lieu du flux complet, la technologie permet à un individu de changer l’angle de la caméra pour apparaître comme s’il regardait directement l’écran même s’il ne le faisait pas. Appelé « Free View », cela permettrait à une personne disposant d'une caméra séparée hors écran de garder un contact visuel avec ceux qui participent à un appel vidéo.


NVIDIA peut également utiliser cette même méthode pour les animations de personnages. En utilisant différents points clés du flux d'origine, il est possible d’ajouter des vêtements, des cheveux ou même animer des personnages de jeux vidéo.


L'utilisation de ce type de réseau de neurones aura d'énormes implications comme servir à soulager les réseaux ou donner aux utilisateurs plus de liberté lorsqu'ils travaillent à distance. Cependant, en raison de la façon dont cette technologie fonctionne, il y aura presque certainement des questions sur la façon dont elle peut être déployée et conduire à des problèmes possibles avec des « deepfake » qui deviennent plus crédibles et plus difficiles à détecter.

GAN

Le concept de GAN a été introduit pour la première fois en 2014 par Ian Goodfellow, et depuis lors, Nvidia est à la pointe de la technologie. Tero Karras, chercheur principal de la société, a dirigé de nombreuses études sur le GAN.

Un GAN est un modèle génératif où deux réseaux sont placés en compétition dans un scénario de théorie des jeux. Le premier réseau est le générateur, il génère un échantillon (ex. une image), tandis que son adversaire, le discriminateur essaie de détecter si un échantillon est réel ou bien s'il est le résultat du générateur. L'apprentissage peut être modélisé comme un jeu à somme nulle. Ces programmes informatiques se font concurrence des millions de fois afin d’affiner leurs compétences en matière de génération d’images jusqu’à ce qu’ils aient la capacité de créer des images complètes.

S’il fallait simplifier, nous pourrions dire que le GAN implique que deux réseaux travaillent l’un contre l’autre. Le premier va être nourri en données brutes qu’il va décomposer. À partir de ces données, il va tenter de créer une image. Il va ensuite soumettre cette image à un autre réseau qui, lui, n’a que des photos ou images réelles dans sa base de données. Ce deuxième réseau va alors juger de l’image et va informer le premier de son jugement. Si l’image ne ressemble pas au résultat attendu, le premier algorithme va recommencer le processus. Si le résultat correspond, il va être informé qu’il est sur la bonne voie et finir par comprendre ce qu’est une bonne image. Une fois qu’il est suffisamment entraîné, il peut en produire à la chaîne.

A ce propos, NVIDIA Research avait publié en open source le code de StylGAN, le GAN qui avait rendu possible la génération de visages qui débordaient de réalisme.

Source : NVIDIA (vidéo de présentation dans le texte)

Et vous ?

Que pensez-vous de cette technologie ?
Seriez-vous prêt à l'essayer ?
Quelles implications pouvez-vous entrevoir ?
Un débat sur l'étique doit-il être sérieusement mené avant de publier de telles recherches ?

Une erreur dans cette actualité ? Signalez-le nous !