Le transfert de style artistique neuronal est une technique qui permet de modifier l’apparence d’une image ou d’une vidéo en utilisant le style d’une autre image, généralement une peinture. L’algorithme utilise un réseau de transformation d’image combiné à un réseau encodeur de profondeur pour styliser les séquences vidéo. Le réseau encodeur de profondeur encode les informations de profondeur réelles qui sont fusionnées dans le réseau de stylisation. Pour renforcer la cohérence temporelle, des couches ConvLSTM sont utilisées dans l’encodeur, et une fonction de perte basée sur les informations de profondeur calculées pour les images de sortie est également utilisée.
La vidéo de la chaîne YouTube Artistic Intelligence est une création artistique qui a utilisé l’intelligence artificielle pour créer l’œuvre d’art. La vidéo utilise la technique de transfert de style, qui consiste comme dit précédemment à modifier l’apparence d’une image ou d’une vidéo en fonction du style d’une autre image. Dans ce cas, le style de référence est la célèbre peinture la Nuit étoilée de Vincent Van Gogh, qui se caractérise par ses coups de pinceau tourbillonnants et ses couleurs vives.
Le contenu de la vidéo est une visite virtuelle de Venise, la ville italienne connue pour ses canaux, ses ponts, ses palais et son architecture. La vidéo montre des scènes de la ville, comme le Grand Canal, le Pont du Rialto, la Place Saint-Marc, le Palais des Doges, etc. La vidéo est accompagnée d’une musique douce et relaxante. Le résultat est une œuvre originale et créative qui mélange la beauté de Venise et l’expression de Van Gogh.
La technique utilisée pose des défis particuliers pour les vidéos, car il faut assurer la cohérence temporelle entre les images successives et la préservation du contenu de la vidéo originale.
Transfert de style neuronal en fonction de la profondeur pour les vidéos
Les chercheurs du Département d'informatique de l’université de Sheffield présentent une méthode qui utilise des données de profondeur pour améliorer le transfert de style pour les vidéos. Les données de profondeur sont des informations qui indiquent la distance entre les objets et la caméra dans une scène tridimensionnelle.
Ils décrivent le fonctionnement de l’algorithme, qui se compose de deux réseaux neuronaux : un réseau de transformation d’image et un réseau encodeur de profondeur. Le réseau de transformation d’image est chargé d’appliquer le style de l’image de référence à chaque image de la vidéo. Le réseau encodeur de profondeur est chargé d’encoder les données de profondeur réelles de chaque image de la vidéo et de les fusionner avec le réseau de transformation d’image. L’objectif est d’utiliser les données de profondeur pour préserver la structure globale et la stabilité temporelle de la vidéo stylisée.
Les chercheurs présentent également les détails techniques de l’implémentation de l’algorithme, notamment les couches ConvLSTM utilisées dans le réseau encodeur de profondeur pour renforcer la cohérence temporelle, et la fonction de perte utilisée pour entraîner le réseau, qui prend en compte les informations de profondeur calculées pour les images de sortie.
La méthode utilisée par les chercheurs s'inspire de travaux antérieurs qui utilisent un réseau de transformation d'images avec des couches de normalisation d'instances, ce qui a permis d'obtenir de meilleurs résultats pour la préservation de la profondeur et de la structure globale. Le système se compose d'un réseau de transformation d'images et d'un encodeur de profondeur. Le réseau de transformation d'image prend en entrée une image RVB et en sort une version stylisée.
Afin d'améliorer la préservation de la profondeur et la cohérence temporelle, le réseau reçoit des caractéristiques supplémentaires codées en fonction de la profondeur, provenant du réseau de codage de la profondeur. Les données de vérité au sol sont traitées par un encodeur de profondeur composé de couches convolutives et de couches de mise en commun maximale.
Architecture du système : le réseau de codage de la profondeur est entraîné pour minimiser la perte de reconstruction de la profondeur pendant qu'il code les caractéristiques de la profondeur qui sont fusionnées dans le réseau de transformation de l'image. Deux couches ConvLSTM sont placées avant et après les 5 couches résiduelles du réseau générateur. Le réseau de transformation d'image est entraîné pour minimiser les pertes perceptuelles (contenu et style), une perte temporelle (calculée à l'aide du flux optique), une perte temporelle de profondeur et une perte de profondeur.
L’œuvre de la chaîne YouTube Artistic Intelligence est un exemple de l’utilisation créative et innovante de l’intelligence artificielle pour produire de l’art. En combinant le contenu d’une vidéo de Venise avec le style d’une peinture de Van Gogh, la chaîne crée une expérience visuelle unique et originale qui invite le spectateur à redécouvrir la ville sous un nouveau jour. Il montre également les possibilités offertes par le transfert de style, cette technique qui permet de transformer une image ou une vidéo en fonction du style d’une autre image. L’œuvre pose ainsi des questions intéressantes sur la nature de l’art, le rôle de l’artiste et l’influence de la technologie sur la création artistique.
Sources : Artistic Intelligence YouTube channel video, University of Sheffield
Et vous ?
Quel est votre avis sur le sujet ?
Quels sont les défis éthiques, sociaux et culturels associés à la production artistique par l’intelligence artificielle ? Quelle est la place de l’humain dans ce processus ?
Voir aussi :
Craignez-vous que l'information ne soit plus du tout fiable sur Internet à cause de l'intelligence artificielle ? Vers une ère de désinformation sans précédent à cause des chatbots et deepfakes ?
ChatGPT peut générer des clés de produit Windows qui permettent des mises à niveau gratuites vers Windows 11 Pro, la technique fonctionne également avec Google Bard