IdentifiantMot de passe
Loading...
Mot de passe oublié ?Je m'inscris ! (gratuit)

Vous êtes nouveau sur Developpez.com ? Créez votre compte ou connectez-vous afin de pouvoir participer !

Vous devez avoir un compte Developpez.com et être connecté pour pouvoir participer aux discussions.

Vous n'avez pas encore de compte Developpez.com ? Créez-en un en quelques instants, c'est entièrement gratuit !

Si vous disposez déjà d'un compte et qu'il est bien activé, connectez-vous à l'aide du formulaire ci-dessous.

Identifiez-vous
Identifiant
Mot de passe
Mot de passe oublié ?
Créer un compte

L'inscription est gratuite et ne vous prendra que quelques instants !

Je m'inscris !

Meta AI présente Megabyte, une architecture IA capable de modéliser des millions d'octets en se passant de la tokenisation.
Les chercheurs y voient le début d'une révolution de l'IA générative

Le , par Stéphane le calme

101PARTAGES

5  0 
L'équipe de recherche de Meta a dévoilé une architecture de modèle d'IA innovante, capable de générer plus d'un million de jetons dans plusieurs formats et dépassant les capacités de l'architecture Transformer existante derrière des modèles comme GPT-4. Le modèle Megabyte résout les problèmes d'évolutivité des modèles actuels et effectue des calculs en parallèle, ce qui améliore l'efficacité et surpasse les transformateurs.

Une équipe Meta de chercheurs en IA a proposé une architecture innovante pour les modèles d'IA, capable de générer un contenu expansif aux formats texte, image et audio, s'étendant jusqu'à plus d'un million de jetons. Cette proposition révolutionnaire, si elle est adoptée, pourrait ouvrir la voie à la prochaine génération de modèles d'IA performants, transcendant l'architecture Transformer qui sous-tend des modèles tels que GPT-4 et Bard, et libérant de nouvelles capacités de génération de contenu.

Les contraintes des modèles actuels

Les modèles contemporains d'IA générative hautement performants, comme le GPT-4 d'OpenAI, sont fondés sur l'architecture Transformer. Initialement introduite par les chercheurs de Google en 2017, cette architecture constitue l'épine dorsale des modèles d'IA émergents, facilitant la compréhension des entrées nuancées et générant des phrases et des documents longs.

Les transformateurs ont permis le développement de systèmes préentraînés comme BERT (Bidirectional Encoder Representations from Transformers) et GPT (Generative Pre-trained Transformer), qui ont été entraînés avec de grands corpus linguistiques, comme le corpus Wikipedia ou Common Crawl, et qui peuvent être adaptés à des tâches spécifiques.

Les modèles d’IA actuels sont confrontés à plusieurs contraintes qui limitent leur potentiel et leur adoption. Parmi ces contraintes, on peut citer :
  • la complexité et l’opacité des modèles : certains modèles d’IA, comme les réseaux de neurones profonds, sont difficiles à comprendre et à expliquer, ce qui pose des problèmes de confiance, de responsabilité et d’éthique. Il existe un besoin croissant de développer des méthodes pour expliquer l’IA (XAI) qui permettent aux utilisateurs de comprendre le fonctionnement et le raisonnement des modèles ;
  • la disponibilité et la qualité des données : les modèles d’IA nécessitent souvent de grandes quantités de données pour être entraînés et validés, mais ces données ne sont pas toujours accessibles ou fiables. Il existe des problèmes de confidentialité, de sécurité, de biais, de bruit et d’incomplétude des données qui affectent la performance et la robustesse des modèles ;
  • le coût et l’efficacité énergétique du calcul : les modèles d’IA sont souvent gourmands en ressources computationnelles, ce qui implique un coût financier et environnemental élevé. Il existe un besoin de développer des méthodes d’optimisation du calcul, comme la compression, la quantification ou la distillation des modèles, ainsi que des architectures matérielles dédiées à l’IA, comme les puces spécialisées ;
  • l’interopérabilité et la standardisation des modèles : les modèles d’IA sont souvent développés avec des frameworks, des formats ou des langages différents, ce qui rend difficile leur partage, leur réutilisation ou leur intégration. Il existe un besoin de développer des méthodes d’interopérabilité de l’IA, comme les formats ouverts (par exemple ONNX) ou les compilateurs universels (par exemple TVM) qui permettent de convertir ou d’exécuter les modèles sur différentes plateformes.



Les avantages apportés par Megabyte

Pour mieux comprendre le fonctionnement et les avantages de Megabyte, il faut revenir sur le concept de tokenisation, qui est une étape essentielle dans la plupart des modèles d’IA actuels. La tokenisation consiste à découper un texte ou une autre modalité en unités plus petites et plus gérables, appelées tokens. Par exemple, un texte peut être découpé en mots, en syllabes ou en caractères. Une image peut être découpée en pixels ou en régions. Un son peut être découpé en fréquences ou en phonèmes.

La tokenisation permet de réduire la complexité et la taille des données à traiter par les modèles d’IA, mais elle présente aussi des inconvénients. Tout...
La fin de cet article est réservée aux abonnés. Soutenez le Club Developpez.com en prenant un abonnement pour que nous puissions continuer à vous proposer des publications.

Une erreur dans cette actualité ? Signalez-nous-la !