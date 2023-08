Les méthodes de prédiction du mouvement vidéo permettent soit d'estimer conjointement le mouvement instantané de tous les points d'une image vidéo donnée à l'aide du flux optique, soit de suivre le mouvement de points individuels tout au long de la vidéo, mais de manière indépendante. Cette dernière solution est vraie même pour les méthodes d'apprentissage profond puissantes qui peuvent suivre les points à travers les occlusions. Le suivi individuel des points ignore la forte corrélation qui peut exister entre les points, par exemple lorsqu'ils proviennent du même objet physique, ce qui peut nuire aux performances.Le transformateur est conçu pour mettre à jour itérativement une estimation de plusieurs trajectoires. Il peut être appliqué de manière glissante à des vidéos très longues, pour lesquelles il est conçu une boucle d'apprentissage déroulée. Il se compare favorablement aux méthodes de suivi de points les plus récentes, à la fois en termes d'efficacité et de précision.On suit des points échantillonnés sur une grille régulière à partir de l'image vidéo initiale. Les couleurs représentent l'objet (magenta) et l'arrière-plan (cyan).Pour les PIP, de nombreux points sont suivis de manière incorrecte et finissent par être "" sur l'avant de l'objet ou sur le côté de l'image lorsqu'ils sont occultés. Les prédictions RAFT ont moins de bruit, mais le modèle ne parvient pas à gérer les occlusions, ce qui entraîne la perte de points ou leur blocage sur l'objet. Les prédictions TAPIR sont assez précises pour les points non occlus. Lorsqu'un point est occulté, le modèle peine à estimer sa position. CoTracker produit des traces plus nettes et plus "linéaires", ce qui est exact car le mouvement principal est une homographie (l'observateur ne se déplace pas).On suit le même point avec différentes méthodes et on visualise sa trajectoire à l'aide d'un codage couleur basé sur le temps. La croix rouge (❌) indique les coordonnées du point de vérité au sol.Plusieurs travaux concurrents ont été développés à peu près en même temps que CoTracker :TAPIR est un suiveur de points en amont avec une étape de correspondance inspirée de TAP-Vid et une étape de raffinement inspirée de PIPs. Le modèle démontre un suivi précis des points visibles. Cependant, il peine à prédire les positions des points occultés.Tracking Everything Everywhere All At Once optimise une représentation volumétrique pour chaque vidéo pendant la durée du test, en affinant les correspondances estimées dans un espace canonique. Le modèle est actuellement basé sur les pistes RAFT et est moins précis que CoTracker, mais il peut potentiellement être utilisé pour affiner les pistes CoTracker.Le suivi multi-flux effectue une estimation du flux optique entre des images distantes et choisit la chaîne de flux optiques la plus fiable.Source : Meta AI Pensez-vous que nouveau tracker est crédible ou pertinent ?Quel est votre avis sur cet outil ?