
augmentant leur résolution jusqu'à huit fois
Adobe a développé VideoGigaGAN, un nouveau modèle d'IA générative permettant d'augmenter la résolution de vidéos floues jusqu'à huit fois leur taille d'origine, sans introduire les artefacts habituels associés aux méthodes de super résolution vidéo. Contrairement aux autres approches, VideoGigaGAN combine la netteté des réseaux adversariels génératifs (GAN) avec une réduction significative des anomalies telles que le scintillement. Les démonstrations présentées par Adobe révèlent des détails impressionnants, à tel point qu'il est difficile de distinguer l'intervention de l'IA générative. Bien que cette avancée soit actuellement limitée à des fins de recherche, son intégration potentielle dans les logiciels Adobe Creative Cloud, tels que Premiere Pro, reste incertaine. Parallèlement, d'autres acteurs tels que Microsoft et Nvidia ont également développé leurs propres technologies de mise à l'échelle vidéo, suggérant un intérêt généralisé pour cette innovation.
Les approches de super-résolution vidéo (VSR) ont montré une cohérence temporelle impressionnante dans les vidéos suréchantillonnées. Cependant, ces approches ont tendance à générer des résultats plus flous que leurs équivalents en images, car elles sont limitées dans leur capacité générative. Cela soulève une question fondamentale : est-ce possible d’étendre le succès d'un suréchantillonneur d'image génératif à la tâche VSR tout en préservant la cohérence temporelle ?
VideoGigaGAN, un nouveau modèle de VSR génératif qui peut produire des vidéos avec des détails à haute fréquence et une cohérence temporelle. Il s'appuie sur un échantillonneur d'images à grande échelle, GigaGAN. Le simple fait de gonfler GigaGAN pour en faire un modèle vidéo en ajoutant des modules temporels produit un scintillement temporel intense.
Adobe propose des techniques qui améliorent de manière significative la cohérence temporelle des vidéos suréchantillonnées. L’entreprise montre que, contrairement aux méthodes VSR précédentes, VideoGigaGAN génère des vidéos temporellement cohérentes avec des détails d'apparence plus fins. L'efficacité de VideoGigaGAN est validée en le comparant à des modèles VSR de pointe sur des ensembles de données publiques et en présentant des résultats vidéo avec une super-résolution de 8×.
Aperçu de la méthode
Le modèle de super-résolution vidéo est construit sur l'architecture asymétrique U-Net de l'échantillonneur d'images GigaGAN. Pour renforcer la cohérence temporelle, Adobe gonfle d'abord l'échantillonneur d'image en un échantillonneur vidéo en ajoutant des couches d'attention temporelle dans les blocs de décodage. Elle améliore également la cohérence en incorporant les caractéristiques du module de propagation guidée par le flux. Pour supprimer les artefacts de repliement, un bloc anticrénelage est utilisé dans les couches de sous-échantillonnage de l'encodeur. Enfin, les caractéristiques à haute fréquence sont transfés directement aux couches du décodeur par le biais d'une connexion de saut afin de compenser la perte de détails dans le processus BlurPool.
La super-résolution vidéo présente deux défis principaux. Le premier consiste à maintenir la cohérence temporelle entre les images de sortie. Le second défi consiste à générer des détails à haute fréquence dans les images suréchantillonnées. Les approches précédentes se concentrent sur le premier défi et ont montré une cohérence temporelle impressionnante dans les vidéos suréchantillonnées. Cependant, ces approches produisent souvent des résultats flous et ne parviennent pas à produire des détails d'apparence à haute fréquence ou des textures réalistes.
Un modèle VSR efficace doit générer de nouveaux contenus plausibles qui ne sont pas présents dans les vidéos d'entrée à faible résolution. Les modèles VSR actuels sont toutefois limités dans leur capacité de génération et incapables d'halluciner des apparences détaillées. Les réseaux adversoriels génératifs (GAN) ont fait preuve d'une habileté générative impressionnante dans la tâche de super-résolution d'images.
VideoGigaGAN redéfinit les standards de l'imagerie
Ces méthodes peuvent modéliser efficacement la distribution des images à haute résolution et générer des détails fins dans les images suréchantillonnées. GigaGAN augmente encore la capacité générative des modèles de super-résolution d'images en entraînant un modèle GAN à grande échelle sur des milliards d'images. GigaGAN peut générer des textures très détaillées même pour des tâches de suréchantillonnage 8×.
Le modèle rencontre des difficultés lors du traitement de vidéos extrêmement longues (par exemple, 200 images ou plus). Cette difficulté provient d'une propagation erronée des caractéristiques causée par un flux optique imprécis dans de telles séquences vidéo étendues. En outre, notre modèle n'est pas très performant dans le traitement des petits objets, tels que le texte et les caractères, car les informations relatives à ces objets sont considérablement perdues dans l'entrée vidéo LR.
La création de VideoGigaGAN par Adobe représente une avancée significative dans le domaine de la super résolution vidéo grâce à l'utilisation de l'IA générative. La capacité à augmenter la résolution des vidéos sans introduire les artefacts habituels tels que le scintillement est un progrès majeur qui pourrait avoir un impact considérable sur divers domaines, de la production cinématographique à la vidéo grand public.
Cependant, bien que les démonstrations présentées par Adobe semblent impressionnantes, il est important de rester critique quant à la manière dont cette technologie pourrait être utilisée dans la pratique. Le fait qu'il soit difficile de distinguer l'intervention de l'IA générative dans les résultats finaux soulève des questions sur la manipulation de la réalité visuelle et sur la confiance que l'on peut accorder aux médias générés par des machines.
De plus, le fait que VideoGigaGAN soit encore limité à des fins de recherche et que son intégration potentielle dans les logiciels Adobe Creative Cloud soit incertaine soulève des préoccupations quant à la disponibilité réelle de cette technologie pour les utilisateurs finaux. Si d'autres acteurs tels que Microsoft et Nvidia ont également développé leurs propres technologies dans ce domaine, cela souligne à la fois l'intérêt généralisé pour cette innovation et la concurrence potentielle qui pourrait en découler.
Source : Adobe Research
Et vous ?




Voir aussi :



Vous avez lu gratuitement 0 articles depuis plus d'un an.
Soutenez le club developpez.com en souscrivant un abonnement pour que nous puissions continuer à vous proposer des publications.
Soutenez le club developpez.com en souscrivant un abonnement pour que nous puissions continuer à vous proposer des publications.