L'année dernière, Yann LeCun, scientifique en chef de Meta spécialisé dans l'IA, a proposé une nouvelle architecture destinée à surmonter les principales limites des systèmes d'IA les plus avancés aujourd'hui. Sa vision est de créer des machines capables d'apprendre des modèles internes de fonctionnement du monde afin d'apprendre beaucoup plus rapidement, de planifier l'accomplissement de tâches complexes et de s'adapter facilement à des situations inconnues.Le premier modèle d’IA basé sur la vision de Yann LeCun, le directeur scientifique de l’IA chez Meta, pour créer des machines plus proches de l’humaines. Le modèle, appelé I-JEPA, apprend en créant un modèle interne du monde extérieur, qui compare des représentations abstraites d’images. I-JEPA offre de bonnes performances sur plusieurs tâches de vision par ordinateur, et il est beaucoup plus efficace en termes de calcul que d’autres modèles courants.
Capturer les connaissances de bon sens grâce à l'apprentissage auto-supervisé
Les travaux sur I-JEPA (et plus généralement sur les modèles JEPA) sont fondés sur le fait que les êtres humains acquièrent une énorme quantité de connaissances sur le monde simplement en l'observant passivement. Les chercheurs ont émis l'hypothèse que ces informations de bon sens sont essentielles pour permettre un comportement intelligent tel que l'acquisition efficace de nouveaux concepts, l'ancrage et la planification.
Les chercheurs en intelligence artificielle ont tenté de concevoir des algorithmes d'apprentissage qui capturent les connaissances de base du monde et les encodent dans une représentation numérique à laquelle l'algorithme peut accéder ultérieurement. Pour être efficace, le système doit apprendre ces représentations de manière autosupervisée, c'est-à-dire directement à partir de données non étiquetées telles que des images ou des sons, plutôt qu'à partir d'ensembles de données étiquetées assemblées manuellement.
À un niveau élevé, le JEPA vise à prédire la représentation d'une partie d'une entrée (telle qu'une image ou un morceau de texte) à partir de la représentation d'autres parties de la même entrée. Parce qu'il n'implique pas le regroupement des représentations de plusieurs vues/augmentations d'une image en un seul point, le JEPA espère éviter les biais et les problèmes associés à une autre méthode largement utilisée, le préapprentissage basé sur l'invariance.
Parallèlement, en prédisant les représentations à un niveau d'abstraction élevé plutôt que de prédire directement les valeurs des pixels, on espère apprendre des représentations directement utiles qui évitent également les limites des approches génératives, qui sont à la base des grands modèles de langage qui ont suscité tant d'enthousiasme ces derniers temps.
En revanche, les architectures génératives apprennent en supprimant ou en déformant des parties de l'entrée du modèle - par exemple, en effaçant une partie d'une photo ou en cachant certains mots dans un passage de texte. Elles tentent ensuite de prédire les pixels ou les mots corrompus ou manquants. Les méthodes génératives présentent toutefois une lacune importante : le modèle tente de combler chaque information manquante, même si le monde est intrinsèquement imprévisible.
Par conséquent,...
La fin de cet article est réservée aux abonnés. Soutenez le Club Developpez.com en prenant un abonnement pour que nous puissions continuer à vous proposer des publications.