
Les chercheurs y voient le début d'une révolution de l'IA générative
L'équipe de recherche de Meta a dévoilé une architecture de modèle d'IA innovante, capable de générer plus d'un million de jetons dans plusieurs formats et dépassant les capacités de l'architecture Transformer existante derrière des modèles comme GPT-4. Le modèle Megabyte résout les problèmes d'évolutivité des modèles actuels et effectue des calculs en parallèle, ce qui améliore l'efficacité et surpasse les transformateurs.
Une équipe Meta de chercheurs en IA a proposé une architecture innovante pour les modèles d'IA, capable de générer un contenu expansif aux formats texte, image et audio, s'étendant jusqu'à plus d'un million de jetons. Cette proposition révolutionnaire, si elle est adoptée, pourrait ouvrir la voie à la prochaine génération de modèles d'IA performants, transcendant l'architecture Transformer qui sous-tend des modèles tels que GPT-4 et Bard, et libérant de nouvelles capacités de génération de contenu.
Les contraintes des modèles actuels
Les modèles contemporains d'IA générative hautement performants, comme le GPT-4 d'OpenAI, sont fondés sur l'architecture Transformer. Initialement introduite par les chercheurs de Google en 2017, cette architecture constitue l'épine dorsale des modèles d'IA émergents, facilitant la compréhension des entrées nuancées et générant des phrases et des documents longs.
Les transformateurs ont permis le développement de systèmes préentraînés comme BERT (Bidirectional Encoder Representations from Transformers) et GPT (Generative Pre-trained Transformer), qui ont été entraînés avec de grands corpus linguistiques, comme le corpus Wikipedia ou Common Crawl, et qui peuvent être adaptés à des tâches spécifiques.
Les modèles d’IA actuels sont confrontés à plusieurs contraintes qui limitent leur potentiel et leur adoption. Parmi ces contraintes, on peut citer :
- la complexité et l’opacité des modèles : certains modèles d’IA, comme les réseaux de neurones profonds, sont difficiles à comprendre et à expliquer, ce qui pose des problèmes de confiance, de responsabilité et d’éthique. Il existe un besoin croissant de développer des méthodes pour expliquer l’IA (XAI) qui permettent aux utilisateurs de comprendre le fonctionnement et le raisonnement des modèles ;
- la disponibilité et la qualité des données : les modèles d’IA nécessitent souvent de grandes quantités de données pour être entraînés et validés, mais ces données ne sont pas toujours accessibles ou fiables. Il existe des problèmes de confidentialité, de sécurité, de biais, de bruit et d’incomplétude des données qui affectent la performance et la robustesse des modèles ;
- le coût et l’efficacité énergétique du calcul : les modèles d’IA sont souvent gourmands en ressources computationnelles, ce qui implique un coût financier et environnemental élevé. Il existe un besoin de développer des méthodes d’optimisation du calcul, comme la compression, la quantification ou la distillation des modèles, ainsi que des architectures matérielles dédiées à l’IA, comme les puces spécialisées ;
- l’interopérabilité et la standardisation des modèles : les modèles d’IA sont souvent développés avec des frameworks, des formats ou des langages différents, ce qui rend difficile leur partage, leur réutilisation ou leur intégration. Il existe un besoin de développer des méthodes d’interopérabilité de l’IA, comme les formats ouverts (par exemple ONNX) ou les compilateurs universels (par exemple TVM) qui permettent de convertir ou d’exécuter les modèles sur différentes plateformes.
Les avantages apportés par Megabyte
Pour mieux comprendre le fonctionnement et les avantages de Megabyte, il faut revenir sur le concept de tokenisation, qui est une étape essentielle dans la plupart des modèles d’IA actuels. La tokenisation consiste à découper un texte ou une autre modalité en unités plus petites et plus gérables, appelées tokens. Par exemple, un texte peut être découpé en mots, en syllabes ou en caractères. Une image peut être découpée en pixels ou en régions. Un son peut être découpé en fréquences ou en phonèmes.
La tokenisation permet de réduire la complexité et la taille des données à traiter par les modèles d’IA, mais elle présente aussi des inconvénients. Tout d’abord, elle nécessite de choisir un vocabulaire de tokens adapté au domaine et à la langue des données, ce qui peut être coûteux et fastidieux. Ensuite, elle introduit une perte d’information et une ambiguïté dans la représentation des données, car certains tokens peuvent avoir plusieurs sens ou ne pas correspondre exactement aux unités sémantiques des données. Enfin, elle limite la capacité des modèles à traiter des séquences longues et variées, car le nombre de tokens augmente avec la longueur et la diversité des données.
Megabyte propose une solution radicale à ces problèmes : se passer complètement de la tokenisation et travailler directement au niveau des octets. Les octets sont les unités élémentaires d’information numérique, qui peuvent représenter n’importe quelle modalité : texte, image, son, etc. En utilisant les octets comme unités de base, Megabyte évite les coûts et les biais liés à la tokenisation, et peut apprendre à générer des contenus multimodaux de haute qualité à partir de données brutes.
L'architecture multiéchelle de Megabyte
Mais comment Megabyte fait-il pour traiter des séquences d’un million d’octets sans exploser en termes de complexité et de coût ? C’est là qu’intervient son architecture multiéchelle, qui combine un grand transformeur global et un petit transformeur local. Le grand transformeur global prend en entrée des patchs de données, qui sont des séquences courtes d’octets (par exemple 256 octets). Il produit une représentation globale de chaque patch en tenant compte du contexte fourni par les autres patchs. Le petit transformeur local prend en sortie les représentations globales des patchs et prédit autoregressivement le patch suivant.
Cette architecture permet à Megabyte de bénéficier de plusieurs avantages par rapport aux transformeurs classiques. Tout d’abord, elle réduit le coût de l’autoattention, qui est le mécanisme qui permet aux transformeurs de capturer les relations entre les différentes parties d’une séquence. En effet, l’autoattention a un coût quadratique par rapport à la longueur de la séquence : plus la séquence est longue, plus l’autoattention est coûteuse. En décomposant les longues séquences en deux séquences plus courtes (les patchs et leurs représentations globales), Megabyte réduit le coût de l’autoattention, qui reste gérable même pour les longues séquences.
Ensuite, elle augmente l’expressivité des couches feedforward, qui sont les couches qui permettent aux transformeurs d’apprendre des fonctions non linéaires sur les données. En effet, les couches feedforward sont appliquées par position dans les transformeurs classiques : chaque position (mot, pixel, etc.) a sa propre couche feedforward. Cela limite la taille et la capacité des couches feedforward, car elles doivent être répétées pour chaque position. En revanche, dans Megabyte, les couches feedforward sont appliquées par patch : chaque patch a sa propre couche feedforward. Cela permet d’avoir des couches feedforward plus grandes et plus expressives pour le même coût.
Enfin, elle accélère la vitesse de génération lors du déploiement. En effet, dans les transformeurs classiques à décodeur seul, la génération se fait séquentiellement : il...
La fin de cet article est réservée aux abonnés. Soutenez le Club Developpez.com en prenant un abonnement pour que nous puissions continuer à vous proposer des publications.