Le premier modèle d’IA basé sur la vision de Yann LeCun, le directeur scientifique de l’IA chez Meta, pour créer des machines plus proches de l’humaines. Le modèle, appelé I-JEPA, apprend en créant un modèle interne du monde extérieur, qui compare des représentations abstraites d’images. I-JEPA offre de bonnes performances sur plusieurs tâches de vision par ordinateur, et il est beaucoup plus efficace en termes de calcul que d’autres modèles courants.
Envoyé par Meta
Capturer les connaissances de bon sens grâce à l'apprentissage auto-supervisé
Les travaux sur I-JEPA (et plus généralement sur les modèles JEPA) sont fondés sur le fait que les êtres humains acquièrent une énorme quantité de connaissances sur le monde simplement en l'observant passivement. Les chercheurs ont émis l'hypothèse que ces informations de bon sens sont essentielles pour permettre un comportement intelligent tel que l'acquisition efficace de nouveaux concepts, l'ancrage et la planification.
Les chercheurs en intelligence artificielle ont tenté de concevoir des algorithmes d'apprentissage qui capturent les connaissances de base du monde et les encodent dans une représentation numérique à laquelle l'algorithme peut accéder ultérieurement. Pour être efficace, le système doit apprendre ces représentations de manière autosupervisée, c'est-à-dire directement à partir de données non étiquetées telles que des images ou des sons, plutôt qu'à partir d'ensembles de données étiquetées assemblées manuellement.
À un niveau élevé, le JEPA vise à prédire la représentation d'une partie d'une entrée (telle qu'une image ou un morceau de texte) à partir de la représentation d'autres parties de la même entrée. Parce qu'il n'implique pas le regroupement des représentations de plusieurs vues/augmentations d'une image en un seul point, le JEPA espère éviter les biais et les problèmes associés à une autre méthode largement utilisée, le préapprentissage basé sur l'invariance.
Parallèlement, en prédisant les représentations à un niveau d'abstraction élevé plutôt que de prédire directement les valeurs des pixels, on espère apprendre des représentations directement utiles qui évitent également les limites des approches génératives, qui sont à la base des grands modèles de langage qui ont suscité tant d'enthousiasme ces derniers temps.
En revanche, les architectures génératives apprennent en supprimant ou en déformant des parties de l'entrée du modèle - par exemple, en effaçant une partie d'une photo ou en cachant certains mots dans un passage de texte. Elles tentent ensuite de prédire les pixels ou les mots corrompus ou manquants. Les méthodes génératives présentent toutefois une lacune importante : le modèle tente de combler chaque information manquante, même si le monde est intrinsèquement imprévisible.
Par conséquent, les méthodes génératives peuvent être sujettes à des erreurs qu'une personne ne commettrait jamais parce qu'elles se concentrent trop sur des détails non pertinents au lieu de capturer des concepts prévisibles de haut niveau. Par exemple, il est notoirement difficile pour les modèles génératifs de générer des mains humaines avec précision. (Ils ajoutent souvent des chiffres supplémentaires ou commettent d'autres erreurs flagrantes).
Architectures courantes pour l'apprentissage auto-supervisé, dans lesquelles le système apprend à saisir les relations entre ses entrées. L'objectif est d'attribuer une énergie élevée aux entrées incompatibles et une énergie faible aux entrées compatibles. (a) Les architectures d'intégration conjointe (invariantes) apprennent à produire des intégrations similaires pour les entrées compatibles x, y et des intégrations dissemblables pour les entrées incompatibles. (b) Les architectures génératives apprennent à reconstruire directement un signal y à partir d'un signal x compatible, en utilisant un réseau de décodeurs conditionné par des variables supplémentaires (éventuellement latentes) z pour faciliter la reconstruction. (c) Les architectures prédictives à emboîtement conjoint apprennent à prédire les emboîtements d'un signal y à partir d'un signal x compatible, à l'aide d'un réseau prédicteur conditionné par des variables supplémentaires (éventuellement latentes) z pour faciliter la prédiction.
Un premier pas vers une architecture prédictive à capacités étendues, basée sur l'imbrication des éléments
L'idée qui sous-tend l'I-JEPA est de prédire les informations manquantes dans une représentation abstraite qui s'apparente davantage à la compréhension générale qu'en ont les gens. Par rapport aux méthodes génératives qui prédisent dans l'espace pixel/token, I-JEPA utilise des cibles de prédiction abstraites pour lesquelles les détails inutiles au niveau du pixel sont potentiellement éliminés, ce qui permet au modèle d'apprendre davantage de caractéristiques sémantiques.
La stratégie de masquage multi-blocs proposée est un autre choix de conception essentiel pour guider I-JEPA vers la production de représentations sémantiques. Plus précisément, nous démontrons l'importance de prédire de grands blocs contenant des informations sémantiques (avec une échelle suffisamment grande), en utilisant un contexte informatif (distribué dans l'espace).
L'architecture prédictive Joint-Embedding basée sur l'image (I-JEPA) utilise un seul bloc de contexte pour prédire les représentations de divers blocs cibles provenant de la même image. Le codeur de contexte est un transformateur de vision (ViT) qui ne traite que les blocs de contexte visibles. Le prédicteur est un ViT étroit qui prend la sortie de l'encodeur de contexte et prédit les représentations d'un bloc cible à un endroit spécifique, conditionné par des jetons de position de la cible (représentés en couleur). Les représentations de la cible correspondent aux sorties de l'encodeur cible, dont les poids sont mis à jour à chaque itération par une moyenne mobile exponentielle des poids de l'encodeur contextuel.
Le prédicteur dans I-JEPA peut être considéré comme un modèle du monde primitif (et restreint) capable de modéliser l'incertitude spatiale dans une image statique à partir d'un contexte partiellement observable. De plus, ce modèle du monde est sémantique dans le sens où il prédit des informations de haut niveau sur des régions non vues de l'image, plutôt que des détails au niveau du pixel.
Illustration de la façon dont le prédicteur apprend à modéliser la sémantique du monde. Pour chaque image, la partie située à l'extérieur de la boîte bleue est codée et donnée au prédicteur en tant que contexte. Le prédicteur produit une représentation de ce qu'il s'attend à trouver dans la région située à l'intérieur de la boîte bleue. Pour visualiser la prédiction, nous formons un modèle génératif qui produit une esquisse du contenu représenté par la sortie du prédicteur, et nous montrons un échantillon de sortie dans la boîte bleue. Il est clair que le prédicteur reconnaît la sémantique des parties à remplir (le haut de la tête du chien, la patte de l'oiseau, les pattes du loup, l'autre côté du bâtiment).
I-JEPA est également compétitif par rapport aux approches de pré-entraînement précédentes qui reposent sur des augmentations de données créées à la main pour les tâches sémantiques. Par rapport à ces méthodes, I-JEPA obtient de meilleures performances sur des tâches de vision de bas niveau telles que le comptage d'objets et la prédiction de la profondeur. En utilisant un modèle plus simple avec un biais inductif moins rigide, I-JEPA est applicable à un plus grand nombre de tâches.
Précision de la classification des images faibles : évaluation semi-supervisée sur ImageNet-1k avec 1 % des étiquettes (environ 12 images étiquetées par classe).
Un pas de plus vers l'intelligence humaine dans l'IA
L'I-JEPA démontre le potentiel des architectures pour l'apprentissage de représentations d'images compétitives prêtes à l'emploi, sans qu'il soit nécessaire de disposer de connaissances supplémentaires encodées par des transformations d'images réalisées à la main. Il serait particulièrement intéressant de faire progresser les JEPA pour qu'ils apprennent des modèles de monde plus généraux à partir de modalités plus riches, par exemple en permettant de faire des prédictions spatiales et temporelles à longue portée sur des événements futurs dans une vidéo à partir d'un contexte court, et en conditionnant ces prédictions à des invites audio ou textuelles.
« Nous sommes impatients de travailler à l'extension de l'approche JEPA à d'autres domaines, tels que les données couplées image-texte et les données vidéo. À l'avenir, les modèles JEPA pourraient avoir des applications intéressantes pour des tâches telles que la compréhension de vidéos. Il s'agit d'une étape importante vers l'application et l'extension des méthodes auto-supervisées pour l'apprentissage d'un modèle général du monde », déclare Meta.
Source : Meta
Et vous ?
Quel est votre avi sur le sujet ?
Voir aussi :
La société mère de Facebook, Meta, ne figure plus dans le Top 10 des entreprises les plus valorisées. Meta a perdu 513 milliards de dollars de capitalisation boursière en quelques mois
Meta prévoit de percevoir près de 50% des revenus générés par les créateurs dans « Horizon Worlds », sa plateforme de réalité virtuelle faisant partie de son projet de création du métavers