IdentifiantMot de passe
Loading...
Mot de passe oublié ?Je m'inscris ! (gratuit)

Vous êtes nouveau sur Developpez.com ? Créez votre compte ou connectez-vous afin de pouvoir participer !

Vous devez avoir un compte Developpez.com et être connecté pour pouvoir participer aux discussions.

Vous n'avez pas encore de compte Developpez.com ? Créez-en un en quelques instants, c'est entièrement gratuit !

Si vous disposez déjà d'un compte et qu'il est bien activé, connectez-vous à l'aide du formulaire ci-dessous.

Identifiez-vous
Identifiant
Mot de passe
Mot de passe oublié ?
Créer un compte

L'inscription est gratuite et ne vous prendra que quelques instants !

Je m'inscris !

I-JEPA : le premier modèle d'IA basé sur la vision de Yann LeCun, le scientifique en chef de Meta spécialisé dans l'IA,
Pour une IA plus proche de l'humain

Le , par Bruno

172PARTAGES

14  0 
L'année dernière, Yann LeCun, scientifique en chef de Meta spécialisé dans l'IA, a proposé une nouvelle architecture destinée à surmonter les principales limites des systèmes d'IA les plus avancés aujourd'hui. Sa vision est de créer des machines capables d'apprendre des modèles internes de fonctionnement du monde afin d'apprendre beaucoup plus rapidement, de planifier l'accomplissement de tâches complexes et de s'adapter facilement à des situations inconnues.

Le premier modèle d’IA basé sur la vision de Yann LeCun, le directeur scientifique de l’IA chez Meta, pour créer des machines plus proches de l’humaines. Le modèle, appelé I-JEPA, apprend en créant un modèle interne du monde extérieur, qui compare des représentations abstraites d’images. I-JEPA offre de bonnes performances sur plusieurs tâches de vision par ordinateur, et il est beaucoup plus efficace en termes de calcul que d’autres modèles courants.

Citation Envoyé par Meta
Nous sommes ravis de présenter le premier modèle d'IA basé sur un élément clé de la vision de LeCun. Ce modèle, l'Image Joint Embedding Predictive Architecture (I-JEPA), apprend en créant un modèle interne du monde extérieur, qui compare des représentations abstraites d'images (plutôt que de comparer les pixels eux-mêmes). L'I-JEPA offre d'excellentes performances dans de nombreuses tâches de vision par ordinateur et est beaucoup plus efficace sur le plan du calcul que d'autres modèles de vision par ordinateur largement utilisés.

Les représentations apprises par I-JEPA peuvent également être utilisées pour de nombreuses applications différentes sans nécessiter de réglage fin. Par exemple, nous entraînons un modèle de transformateur visuel de 632 millions de paramètres à l'aide de 16 GPU A100 en moins de 72 heures, et il atteint des performances de pointe pour la classification de plans bas sur ImageNet, avec seulement 12 exemples étiquetés par classe. D'autres méthodes nécessitent généralement deux à dix fois plus d'heures de GPU et obtiennent des taux d'erreur plus élevés lorsqu'elles sont entraînées avec la même quantité de données.
Meta explique que le modèle s’inspire de l’idée que les humains apprennent beaucoup de connaissances de base sur le monde en l’observant passivement, et que ces connaissances constituent le sens commun qui permet d’agir intelligemment dans des nouvelles situations. Meta annonce que le papier sur I-JEPA sera présenté à la conférence CVPR 2023, et que le code et les checkpoints du modèle sont disponibles en open source.

Capturer les connaissances de bon sens grâce à l'apprentissage auto-supervisé

Les travaux sur I-JEPA (et plus généralement sur les modèles JEPA) sont fondés sur le fait que les êtres humains acquièrent une énorme quantité de connaissances sur le monde simplement en l'observant passivement. Les chercheurs ont émis l'hypothèse que ces informations de bon sens sont essentielles pour permettre un comportement intelligent tel que l'acquisition efficace de nouveaux concepts, l'ancrage et la planification.

Les chercheurs en intelligence artificielle ont tenté de concevoir des algorithmes d'apprentissage qui capturent les connaissances de base du monde et les encodent dans une représentation numérique à laquelle l'algorithme peut accéder ultérieurement. Pour être efficace, le système doit apprendre ces représentations de manière autosupervisée, c'est-à-dire directement à partir de données non étiquetées telles que des images ou des sons, plutôt qu'à partir d'ensembles de données étiquetées assemblées manuellement.

À un niveau élevé, le JEPA vise à prédire la représentation d'une partie d'une entrée (telle qu'une image ou un morceau de texte) à partir de la représentation d'autres parties de la même entrée. Parce qu'il n'implique pas le regroupement des représentations de plusieurs vues/augmentations d'une image en un seul point, le JEPA espère éviter les biais et les problèmes associés à une autre méthode largement utilisée, le préapprentissage basé sur l'invariance.

Parallèlement, en prédisant les représentations à un niveau d'abstraction élevé plutôt que de prédire directement les valeurs des pixels, on espère apprendre des représentations directement utiles qui évitent également les limites des approches génératives, qui sont à la base des grands modèles de langage qui ont suscité tant d'enthousiasme ces derniers temps.

En revanche, les architectures génératives apprennent en supprimant ou en déformant des parties de l'entrée du modèle - par exemple, en effaçant une partie d'une photo ou en cachant certains mots dans un passage de texte. Elles tentent ensuite de prédire les pixels ou les mots corrompus ou manquants. Les méthodes génératives présentent toutefois une lacune importante : le modèle tente de combler chaque information manquante, même si le monde est intrinsèquement imprévisible.

Par conséquent,...
La fin de cet article est réservée aux abonnés. Soutenez le Club Developpez.com en prenant un abonnement pour que nous puissions continuer à vous proposer des publications.

Une erreur dans cette actualité ? Signalez-nous-la !

Avatar de TJ1985
Membre chevronné https://www.developpez.com
Le 17/06/2023 à 9:23
Enfin ! L'absence de sémantique rendait l'apprentissage profond désespérant, manifestement on tournait en rond.
Avec cette approche on se permet d'ajouter d'autres dimensions d'agrégation au système, on le dirige bien vers le traitement d'abstractions.
Seule inquiétude de mon point de vue, des systèmes à la Chinoise basés sur cette approche seront capables de gérer des modèles comportementaux fins, ce qui posera immanquablement de sérieux soucis.
Ça fait plaisir de voir qu'une personnalité comme Yann LeCun reste capable de faire évoluer les concepts sur lesquels il travaille depuis sa jeunesse. Certains se sont emprisonnés, d'autres s'évaporent dans le catastrophisme et ne produisent plus que du blabla médiatique.
0  0