I-JEPA : le premier modèle d'IA basé sur la vision de Yann LeCun, le scientifique en chef de Meta spécialisé dans l'IA,

Pour une IA plus proche de l'humain

Le 15 juin 2023 à 19:51, par Bruno

72PARTAGES

L'année dernière, Yann LeCun, scientifique en chef de Meta spécialisé dans l'IA, a proposé une nouvelle architecture destinée à surmonter les principales limites des systèmes d'IA les plus avancés aujourd'hui. Sa vision est de créer des machines capables d'apprendre des modèles internes de fonctionnement du monde afin d'apprendre beaucoup plus rapidement, de planifier l'accomplissement de tâches complexes et de s'adapter facilement à des situations inconnues.

Le premier modèle d’IA basé sur la vision de Yann LeCun, le directeur scientifique de l’IA chez Meta, pour créer des machines plus proches de l’humaines. Le modèle, appelé I-JEPA, apprend en créant un modèle interne du monde extérieur, qui compare des représentations abstraites d’images. I-JEPA offre de bonnes performances sur plusieurs tâches de vision par ordinateur, et il est beaucoup plus efficace en termes de calcul que d’autres modèles courants.

Envoyé par Meta

Nous sommes ravis de présenter le premier modèle d'IA basé sur un élément clé de la vision de LeCun. Ce modèle, l'Image Joint Embedding Predictive Architecture (I-JEPA), apprend en créant un modèle interne du monde extérieur, qui compare des représentations abstraites d'images (plutôt que de comparer les pixels eux-mêmes). L'I-JEPA offre d'excellentes performances dans de nombreuses tâches de vision par ordinateur et est beaucoup plus efficace sur le plan du calcul que d'autres modèles de vision par ordinateur largement utilisés.

Les représentations apprises par I-JEPA peuvent également être utilisées pour de nombreuses applications différentes sans nécessiter de réglage fin. Par exemple, nous entraînons un modèle de transformateur visuel de 632 millions de paramètres à l'aide de 16 GPU A100 en moins de 72 heures, et il atteint des performances de pointe pour la classification de plans bas sur ImageNet, avec seulement 12 exemples étiquetés par classe. D'autres méthodes nécessitent généralement deux à dix fois plus d'heures de GPU et obtiennent des taux d'erreur plus élevés lorsqu'elles sont entraînées avec la même quantité de données.

Meta explique que le modèle s’inspire de l’idée que les humains apprennent beaucoup de connaissances de base sur le monde en l’observant passivement, et que ces connaissances constituent le sens commun qui permet d’agir intelligemment dans des nouvelles situations. Meta annonce que le papier sur I-JEPA sera présenté à la conférence CVPR 2023, et que le code et les checkpoints du modèle sont disponibles en open source.

Capturer les connaissances de bon sens grâce à l'apprentissage auto-supervisé

Les travaux sur I-JEPA (et plus généralement sur les modèles JEPA) sont fondés sur le fait que les êtres humains acquièrent une énorme quantité de connaissances sur le monde simplement en l'observant passivement. Les chercheurs ont émis l'hypothèse que ces informations de bon sens sont essentielles pour permettre un comportement intelligent tel que l'acquisition efficace de nouveaux concepts, l'ancrage et la planification.

Les chercheurs en intelligence artificielle ont tenté de concevoir des algorithmes d'apprentissage qui capturent les connaissances de base du monde et les encodent dans une représentation numérique à laquelle l'algorithme peut accéder ultérieurement. Pour être efficace, le système doit apprendre ces représentations de manière autosupervisée, c'est-à-dire directement à partir de données non étiquetées telles que des images ou des sons, plutôt qu'à partir d'ensembles de données étiquetées assemblées manuellement.

À un niveau élevé, le JEPA vise à prédire la représentation d'une partie d'une entrée (telle qu'une image ou un morceau de texte) à partir de la représentation d'autres parties de la même entrée. Parce qu'il n'implique pas le regroupement des représentations de plusieurs vues/augmentations d'une image en un seul point, le JEPA espère éviter les biais et les problèmes associés à une autre méthode largement utilisée, le préapprentissage basé sur l'invariance.

Parallèlement, en prédisant les représentations à un niveau d'abstraction élevé plutôt que de prédire directement les valeurs des pixels, on espère apprendre des représentations directement utiles qui évitent également les limites des approches génératives, qui sont à la base des grands modèles de langage qui ont suscité tant d'enthousiasme ces derniers temps.

En revanche, les architectures génératives apprennent en supprimant ou en déformant des parties de l'entrée du modèle - par exemple, en effaçant une partie d'une photo ou en cachant certains mots dans un passage de texte. Elles tentent ensuite de prédire les pixels ou les mots corrompus ou manquants. Les méthodes génératives présentent toutefois une lacune importante : le modèle tente de combler chaque information manquante, même si le monde est intrinsèquement imprévisible.

Par conséquent, les méthodes génératives peuvent être sujettes à des erreurs qu'une personne ne commettrait jamais parce qu'elles se concentrent trop sur des détails non pertinents au lieu de capturer des concepts prévisibles de haut niveau. Par exemple, il est notoirement difficile pour les modèles génératifs de générer des mains humaines avec précision. (Ils ajoutent souvent des chiffres supplémentaires ou commettent d'autres erreurs flagrantes).

Architectures courantes pour l'apprentissage auto-supervisé, dans lesquelles le système apprend à saisir les relations entre ses entrées. L'objectif est d'attribuer une énergie élevée aux entrées incompatibles et une énergie faible aux entrées compatibles. (a) Les architectures d'intégration conjointe (invariantes) apprennent à produire des intégrations similaires pour les entrées compatibles x, y et des intégrations dissemblables pour les entrées incompatibles. (b) Les architectures génératives apprennent à reconstruire directement un signal y à partir d'un signal x compatible, en utilisant un réseau de décodeurs conditionné par des variables supplémentaires (éventuellement latentes) z pour faciliter la reconstruction. (c) Les architectures prédictives à emboîtement conjoint apprennent à prédire les emboîtements d'un signal y à partir d'un signal x compatible, à l'aide d'un réseau prédicteur conditionné par des variables supplémentaires (éventuellement latentes) z pour faciliter la prédiction.

Un premier pas vers une architecture prédictive à capacités étendues, basée sur l'imbrication des éléments

L'idée qui sous-tend l'I-JEPA est de prédire les informations manquantes dans une représentation abstraite qui s'apparente davantage à la compréhension générale qu'en ont les gens. Par rapport aux méthodes génératives qui prédisent dans l'espace pixel/token, I-JEPA utilise des cibles de prédiction abstraites pour lesquelles les détails inutiles au niveau du pixel sont potentiellement éliminés, ce qui permet au modèle d'apprendre davantage de caractéristiques sémantiques.

La stratégie de masquage multi-blocs proposée est un autre choix de conception essentiel pour guider I-JEPA vers la production de représentations sémantiques. Plus précisément, nous démontrons l'importance de prédire de grands blocs contenant des informations sémantiques (avec une échelle suffisamment grande), en utilisant un contexte informatif (distribué dans l'espace).

L'architecture prédictive Joint-Embedding basée sur l'image (I-JEPA) utilise un seul bloc de contexte pour prédire les représentations de divers blocs cibles provenant de la même image. Le codeur de contexte est un transformateur de vision (ViT) qui ne traite que les blocs de contexte visibles. Le prédicteur est un ViT étroit qui prend la sortie de l'encodeur de contexte et prédit les représentations d'un bloc cible à un endroit spécifique, conditionné par des jetons de position de la cible (représentés en couleur). Les représentations de la cible correspondent aux sorties de l'encodeur cible, dont les poids sont mis à jour à chaque itération par une moyenne mobile exponentielle des poids de l'encodeur contextuel.

Le prédicteur dans I-JEPA peut être considéré comme un modèle du monde primitif (et restreint) capable de modéliser l'incertitude spatiale dans une image statique à partir d'un contexte partiellement observable. De plus, ce modèle du monde est sémantique dans le sens où il prédit des informations de haut niveau sur des régions non vues de l'image, plutôt que des détails au niveau du pixel.

[CENTER]

La fin de cet article est réservée aux abonnés. Soutenez le Club Developpez.com en prenant un abonnement pour que nous puissions continuer à vous proposer des publications.

Identifiez-vous

Créer un compte

I-JEPA : le premier modèle d'IA basé sur la vision de Yann LeCun, le scientifique en chef de Meta spécialisé dans l'IA,

Pour une IA plus proche de l'humain

Identifiant
Mot de passe

Mot de passe oublié ?

Identifiez-vous

Créer un compte

I-JEPA : le premier modèle d'IA basé sur la vision de Yann LeCun, le scientifique en chef de Meta spécialisé dans l'IA, Pour une IA plus proche de l'humain

I-JEPA : le premier modèle d'IA basé sur la vision de Yann LeCun, le scientifique en chef de Meta spécialisé dans l'IA,

Pour une IA plus proche de l'humain