IdentifiantMot de passe
Loading...
Mot de passe oublié ?Je m'inscris ! (gratuit)

Vous êtes nouveau sur Developpez.com ? Créez votre compte ou connectez-vous afin de pouvoir participer !

Vous devez avoir un compte Developpez.com et être connecté pour pouvoir participer aux discussions.

Vous n'avez pas encore de compte Developpez.com ? Créez-en un en quelques instants, c'est entièrement gratuit !

Si vous disposez déjà d'un compte et qu'il est bien activé, connectez-vous à l'aide du formulaire ci-dessous.

Identifiez-vous
Identifiant
Mot de passe
Mot de passe oublié ?
Créer un compte

L'inscription est gratuite et ne vous prendra que quelques instants !

Je m'inscris !

I-JEPA : le premier modèle d'IA basé sur la vision de Yann LeCun, le scientifique en chef de Meta spécialisé dans l'IA,
Pour une IA plus proche de l'humain

Le , par Bruno

5PARTAGES

14  0 
L'année dernière, Yann LeCun, scientifique en chef de Meta spécialisé dans l'IA, a proposé une nouvelle architecture destinée à surmonter les principales limites des systèmes d'IA les plus avancés aujourd'hui. Sa vision est de créer des machines capables d'apprendre des modèles internes de fonctionnement du monde afin d'apprendre beaucoup plus rapidement, de planifier l'accomplissement de tâches complexes et de s'adapter facilement à des situations inconnues.

Le premier modèle d’IA basé sur la vision de Yann LeCun, le directeur scientifique de l’IA chez Meta, pour créer des machines plus proches de l’humaines. Le modèle, appelé I-JEPA, apprend en créant un modèle interne du monde extérieur, qui compare des représentations abstraites d’images. I-JEPA offre de bonnes performances sur plusieurs tâches de vision par ordinateur, et il est beaucoup plus efficace en termes de calcul que d’autres modèles courants.

Citation Envoyé par Meta
Nous sommes ravis de présenter le premier modèle d'IA basé sur un élément clé de la vision de LeCun. Ce modèle, l'Image Joint Embedding Predictive Architecture (I-JEPA), apprend en créant un modèle interne du monde extérieur, qui compare des représentations abstraites d'images (plutôt que de comparer les pixels eux-mêmes). L'I-JEPA offre d'excellentes performances dans de nombreuses tâches de vision par ordinateur et est beaucoup plus efficace sur le plan du calcul que d'autres modèles de vision par ordinateur largement utilisés.

Les représentations apprises par I-JEPA peuvent également être utilisées pour de nombreuses applications différentes sans nécessiter de réglage fin. Par exemple, nous entraînons un modèle de transformateur visuel de 632 millions de paramètres à l'aide de 16 GPU A100 en moins de 72 heures, et il atteint des performances de pointe pour la classification de plans bas sur ImageNet, avec seulement 12 exemples étiquetés par classe. D'autres méthodes nécessitent généralement deux à dix fois plus d'heures de GPU et obtiennent des taux d'erreur plus élevés lorsqu'elles sont entraînées avec la même quantité de données.
Meta explique que le modèle s’inspire de l’idée que les humains apprennent beaucoup de connaissances de base sur le monde en l’observant passivement, et que ces connaissances constituent le sens commun qui permet d’agir intelligemment dans des nouvelles situations. Meta annonce que le papier sur I-JEPA sera présenté à la conférence CVPR 2023, et que le code et les checkpoints du modèle sont disponibles en open source.

Capturer les connaissances de bon sens grâce à l'apprentissage auto-supervisé

Les travaux sur I-JEPA (et plus généralement sur les modèles JEPA) sont fondés sur le fait que les êtres humains acquièrent une énorme quantité de connaissances sur le monde simplement en l'observant passivement. Les chercheurs ont émis l'hypothèse que ces informations de bon sens sont essentielles pour permettre un comportement intelligent tel que l'acquisition efficace de nouveaux concepts, l'ancrage et la planification.

Les chercheurs en intelligence artificielle ont tenté de concevoir des algorithmes d'apprentissage qui capturent les connaissances de base du monde et les encodent dans une représentation numérique à laquelle l'algorithme peut accéder ultérieurement. Pour être efficace, le système doit apprendre ces représentations de manière autosupervisée, c'est-à-dire directement à partir de données non étiquetées telles que des images ou des sons, plutôt qu'à partir d'ensembles de données étiquetées assemblées manuellement.

À un niveau élevé, le JEPA vise à prédire la représentation d'une partie d'une entrée (telle qu'une image ou un morceau de texte) à partir de la représentation d'autres parties de la même entrée. Parce qu'il n'implique pas le regroupement des représentations de plusieurs vues/augmentations d'une image en un seul point, le JEPA espère éviter les biais et les problèmes associés à une autre méthode largement utilisée, le préapprentissage basé sur l'invariance.

Parallèlement, en prédisant les représentations à un niveau d'abstraction élevé plutôt que de prédire directement les valeurs des pixels, on espère apprendre des représentations directement utiles qui évitent également les limites des approches génératives, qui sont à la base des grands modèles de langage qui ont suscité tant d'enthousiasme ces derniers temps.

En revanche, les architectures génératives apprennent en supprimant ou en déformant des parties de l'entrée du modèle - par exemple, en effaçant une partie d'une photo ou en cachant certains mots dans un passage de texte. Elles tentent ensuite de prédire les pixels ou les mots corrompus ou manquants. Les méthodes génératives présentent toutefois une lacune importante : le modèle tente de combler chaque information manquante, même si le monde est intrinsèquement imprévisible.

Par conséquent, les méthodes génératives peuvent être sujettes à des erreurs qu'une personne ne commettrait jamais parce qu'elles se concentrent trop sur des détails non pertinents au lieu de capturer des concepts prévisibles de haut niveau. Par exemple, il est notoirement difficile pour les modèles génératifs de générer des mains humaines avec précision. (Ils ajoutent souvent des chiffres supplémentaires ou commettent d'autres erreurs flagrantes).


Architectures courantes pour l'apprentissage auto-supervisé, dans lesquelles le système apprend à saisir les relations entre ses entrées. L'objectif est d'attribuer une énergie élevée aux entrées incompatibles et une énergie faible aux entrées compatibles. (a) Les architectures d'intégration conjointe (invariantes) apprennent à produire des intégrations similaires pour les entrées compatibles x, y et des intégrations dissemblables pour les entrées incompatibles. (b) Les architectures génératives apprennent à reconstruire directement un signal y à partir d'un signal x compatible, en utilisant un réseau de décodeurs conditionné par des variables supplémentaires (éventuellement latentes) z pour faciliter la reconstruction. (c) Les architectures prédictives à emboîtement conjoint apprennent à prédire les emboîtements d'un signal y à partir d'un signal x compatible, à l'aide d'un réseau prédicteur conditionné par des variables supplémentaires (éventuellement latentes) z pour faciliter la prédiction.

Un premier pas vers une architecture prédictive à capacités étendues, basée sur l'imbrication des éléments

L'idée qui sous-tend l'I-JEPA est de prédire les informations manquantes dans une représentation abstraite qui s'apparente davantage à la compréhension générale qu'en ont les gens. Par rapport aux méthodes génératives qui prédisent dans l'espace pixel/token, I-JEPA utilise des cibles de prédiction abstraites pour lesquelles les détails inutiles au niveau du pixel sont potentiellement éliminés, ce qui permet au modèle d'apprendre davantage de caractéristiques sémantiques.

La stratégie de masquage multi-blocs proposée est un autre choix de conception essentiel pour guider I-JEPA vers la production de représentations sémantiques. Plus précisément, nous démontrons l'importance de prédire de grands blocs contenant des informations sémantiques (avec une échelle suffisamment grande), en utilisant un contexte informatif (distribué dans l'espace).


L'architecture prédictive Joint-Embedding basée sur l'image (I-JEPA) utilise un seul bloc de contexte pour prédire les représentations de divers blocs cibles provenant de la même image. Le codeur de contexte est un transformateur de vision (ViT) qui ne traite que les blocs de contexte visibles. Le prédicteur est un ViT étroit qui prend la sortie de l'encodeur de contexte et prédit les représentations d'un bloc cible à un endroit spécifique, conditionné par des jetons de position de la cible (représentés en couleur). Les représentations de la cible correspondent aux sorties de l'encodeur cible, dont les poids sont mis à jour à chaque itération par une moyenne mobile exponentielle des poids de l'encodeur contextuel.

Le prédicteur dans I-JEPA peut être considéré comme un modèle du monde primitif (et restreint) capable de modéliser l'incertitude spatiale dans une image statique à partir d'un contexte partiellement observable. De plus, ce modèle du monde est sémantique dans le sens où il prédit des informations de haut niveau sur des régions non vues de l'image, plutôt que des détails au niveau du pixel.


Illustration de la façon dont le prédicteur apprend à modéliser la sémantique du monde. Pour chaque image, la partie située à l'extérieur de la boîte bleue est codée et donnée au prédicteur en tant que contexte. Le prédicteur produit une représentation de ce qu'il s'attend à trouver dans la région située à l'intérieur de la boîte bleue. Pour visualiser la prédiction, nous formons un modèle génératif qui produit une esquisse du contenu représenté par la sortie du prédicteur, et nous montrons un échantillon de sortie dans la boîte bleue. Il est clair que le prédicteur reconnaît la sémantique des parties à remplir (le haut de la tête du chien, la patte de l'oiseau, les pattes du loup, l'autre côté du bâtiment).

I-JEPA est également compétitif par rapport aux approches de pré-entraînement précédentes qui reposent sur des augmentations de données créées à la main pour les tâches sémantiques. Par rapport à ces méthodes, I-JEPA obtient de meilleures performances sur des tâches de vision de bas niveau telles que le comptage d'objets et la prédiction de la profondeur. En utilisant un modèle plus simple avec un biais inductif moins rigide, I-JEPA est applicable à un plus grand nombre de tâches.


Précision de la classification des images faibles : évaluation semi-supervisée sur ImageNet-1k avec 1 % des étiquettes (environ 12 images étiquetées par classe).

Un pas de plus vers l'intelligence humaine dans l'IA

L'I-JEPA démontre le potentiel des architectures pour l'apprentissage de représentations d'images compétitives prêtes à l'emploi, sans qu'il soit nécessaire de disposer de connaissances supplémentaires encodées par des transformations d'images réalisées à la main. Il serait particulièrement intéressant de faire progresser les JEPA pour qu'ils apprennent des modèles de monde plus généraux à partir de modalités plus riches, par exemple en permettant de faire des prédictions spatiales et temporelles à longue portée sur des événements futurs dans une vidéo à partir d'un contexte court, et en conditionnant ces prédictions à des invites audio ou textuelles.

« Nous sommes impatients de travailler à l'extension de l'approche JEPA à d'autres domaines, tels que les données couplées image-texte et les données vidéo. À l'avenir, les modèles JEPA pourraient avoir des applications intéressantes pour des tâches telles que la compréhension de vidéos. Il s'agit d'une étape importante vers l'application et l'extension des méthodes auto-supervisées pour l'apprentissage d'un modèle général du monde », déclare Meta.

Source : Meta

Et vous ?

Quel est votre avi sur le sujet ?

Voir aussi :

La société mère de Facebook, Meta, ne figure plus dans le Top 10 des entreprises les plus valorisées. Meta a perdu 513 milliards de dollars de capitalisation boursière en quelques mois

Meta prévoit de percevoir près de 50% des revenus générés par les créateurs dans « Horizon Worlds », sa plateforme de réalité virtuelle faisant partie de son projet de création du métavers

Une erreur dans cette actualité ? Signalez-nous-la !

Avatar de TJ1985
Membre chevronné https://www.developpez.com
Le 17/06/2023 à 9:23
Enfin ! L'absence de sémantique rendait l'apprentissage profond désespérant, manifestement on tournait en rond.
Avec cette approche on se permet d'ajouter d'autres dimensions d'agrégation au système, on le dirige bien vers le traitement d'abstractions.
Seule inquiétude de mon point de vue, des systèmes à la Chinoise basés sur cette approche seront capables de gérer des modèles comportementaux fins, ce qui posera immanquablement de sérieux soucis.
Ça fait plaisir de voir qu'une personnalité comme Yann LeCun reste capable de faire évoluer les concepts sur lesquels il travaille depuis sa jeunesse. Certains se sont emprisonnés, d'autres s'évaporent dans le catastrophisme et ne produisent plus que du blabla médiatique.
0  0