Les approches de super-résolution vidéo (VSR) ont montré une cohérence temporelle impressionnante dans les vidéos suréchantillonnées. Cependant, ces approches ont tendance à générer des résultats plus flous que leurs équivalents en images, car elles sont limitées dans leur capacité générative. Cela soulève une question fondamentale : est-ce possible d’étendre le succès d'un suréchantillonneur d'image génératif à la tâche VSR tout en préservant la cohérence temporelle ?
VideoGigaGAN, un nouveau modèle de VSR génératif qui peut produire des vidéos avec des détails à haute fréquence et une cohérence temporelle. Il s'appuie sur un échantillonneur d'images à grande échelle, GigaGAN. Le simple fait de gonfler GigaGAN pour en faire un modèle vidéo en ajoutant des modules temporels produit un scintillement temporel intense.
Adobe propose des techniques qui améliorent de manière significative la cohérence temporelle des vidéos suréchantillonnées. L’entreprise montre que, contrairement aux méthodes VSR précédentes, VideoGigaGAN génère des vidéos temporellement cohérentes avec des détails d'apparence plus fins. L'efficacité de VideoGigaGAN est validée en le comparant à des modèles VSR de pointe sur des ensembles de données publiques et en présentant des résultats vidéo avec une super-résolution de 8×.
Aperçu de la méthode
Le modèle de super-résolution vidéo est construit sur l'architecture asymétrique U-Net de l'échantillonneur d'images GigaGAN. Pour renforcer la cohérence temporelle, Adobe gonfle d'abord l'échantillonneur d'image en un échantillonneur vidéo en ajoutant des couches d'attention temporelle dans les blocs de décodage. Elle améliore également la cohérence en incorporant les caractéristiques du module de propagation guidée par le flux. Pour supprimer les artefacts de repliement, un bloc anticrénelage est utilisé dans les couches de sous-échantillonnage de l'encodeur. Enfin, les caractéristiques à haute fréquence sont transfés directement aux couches du décodeur par le biais d'une connexion de saut afin de compenser la perte de détails dans le processus BlurPool.
La super-résolution vidéo présente deux défis principaux. Le premier consiste à maintenir la cohérence temporelle entre les images de sortie. Le second défi consiste à générer des détails à haute fréquence dans les images suréchantillonnées. Les approches précédentes se concentrent sur le premier défi et ont montré une cohérence temporelle impressionnante dans les vidéos suréchantillonnées. Cependant, ces approches produisent souvent des résultats flous et ne parviennent pas à produire des détails d'apparence à haute fréquence ou des textures réalistes.
Un modèle VSR efficace doit générer de nouveaux contenus plausibles qui ne sont pas présents dans les vidéos d'entrée à faible résolution. Les modèles VSR actuels sont toutefois limités dans leur capacité de génération et incapables d'halluciner des apparences détaillées. Les réseaux adversoriels génératifs (GAN) ont fait preuve d'une habileté générative impressionnante dans la tâche de super-résolution d'images.
VideoGigaGAN redéfinit les standards de l'imagerie
Ces méthodes peuvent modéliser efficacement la distribution des images à haute résolution et générer des détails fins dans les images suréchantillonnées. GigaGAN augmente encore la capacité générative des modèles de super-résolution d'images en entraînant un modèle GAN à grande échelle sur des milliards d'images. GigaGAN peut générer des textures très détaillées même pour des tâches de suréchantillonnage 8×.
Le modèle rencontre des difficultés lors du traitement de vidéos extrêmement longues (par exemple, 200 images ou plus). Cette difficulté provient d'une propagation erronée des caractéristiques causée par un flux optique imprécis dans de telles séquences vidéo étendues. En outre, notre modèle n'est pas très performant dans le traitement des petits objets, tels que le texte et les caractères, car les informations relatives à ces objets sont considérablement perdues dans l'entrée vidéo LR.
La création de VideoGigaGAN par Adobe représente une avancée significative dans le domaine de la super résolution vidéo grâce à l'utilisation de l'IA générative. La capacité à augmenter la résolution des vidéos sans introduire les artefacts habituels tels que le scintillement est un progrès majeur qui pourrait avoir un impact considérable sur divers domaines, de la production cinématographique à la vidéo grand public.
Cependant, bien que les démonstrations présentées par Adobe semblent impressionnantes, il est important de rester critique quant à la manière dont cette technologie pourrait être utilisée dans la pratique. Le fait qu'il soit difficile de distinguer l'intervention de l'IA générative dans les résultats finaux soulève des questions sur la manipulation de la réalité visuelle et sur la confiance que l'on peut accorder aux médias générés par des machines.
De plus, le fait que VideoGigaGAN soit encore limité à des fins de recherche et que son intégration potentielle dans les logiciels Adobe Creative Cloud soit incertaine soulève des préoccupations quant à la disponibilité réelle de cette technologie pour les utilisateurs finaux. Si d'autres acteurs tels que Microsoft et Nvidia ont également développé leurs propres technologies dans ce domaine, cela souligne à la fois l'intérêt généralisé pour cette innovation et la concurrence potentielle qui pourrait en découler.
Source : Adobe Research
Et vous ?
Quel est votre avis sur le sujet ?
Quels sont selon vous les risques associés à l'intégration de cette technologie dans les logiciels grand public comme Adobe Creative Cloud ?
Dans quelle mesure les détails ajoutés par VideoGigaGAN peuvent-ils être considérés comme authentiques, et quelles implications cela peut-il avoir pour la perception des images et des vidéos par le public ?
Comment VideoGigaGAN pourrait-il être utilisé de manière éthique dans des contextes tels que la production de contenu médiatique ou la surveillance ?
Voir aussi :
Adobe utilise-t-il vos photos pour entraîner son IA ? Adobe pourrait analyser votre contenu à l'aide de techniques telles que l'apprentissage automatique, selon la Fondation Krita
Adobe achètera vos vidéos jusqu'à 7,25 dollars la minute pour former son générateur de texte en vidéo par IA, afin de rattraper ses concurrents après la démonstration d'OpenAI
Facebook serait envahi d'images volées, créées par l'IA, que les gens croient réelles, créant la confusion parmi les utilisateurs