M6 est un modèle général d'IA développé par DAMO Academy (Academy for Discovery, Adventure, Momentum and Outlook), doté de fonctions multimodales et multitâches. Selon l'institut, ses capacités cognitives et créatives dépassent la plupart des IA utilisées aujourd'hui, et il est particulièrement doué pour les fonctions de conception, d'écriture et de questions-réponses. En outre, l'institut affirme que ce modèle pourrait être largement utilisé dans les domaines du commerce électronique, de la fabrication, de la littérature et des arts, de la recherche scientifique, et dans plusieurs autres domaines.
L'IA multimodale est un nouveau paradigme de l'IA qui combine divers types de données (images, textes, sons, données numériques, etc.) avec multiples algorithmes de traitement de l'intelligence pour obtenir des performances plus élevées et plus rapides. En combinant ces types de données, l'IA multimodale pourrait surpasser l'IA modale dans de nombreux problèmes du monde réel. Dans le domaine de l'apprentissage automatique (ML), l'apprentissage multitâche est une méthode dans laquelle plusieurs tâches d'apprentissage sont résolues simultanément tout en exploitant les points communs et les différences entre les tâches.
Lorsqu'un modèle d'IA est créé, il se concentre généralement sur un point de référence central. Un modèle unique ou un ensemble de modèles sont principalement entraînés en fonction de ce repère. Si, d'une manière générale, cette méthode permet d'obtenir des performances acceptables, elle ignore d'autres informations qui pourraient être utiles pour améliorer la mesure de base. L'apprentissage multitâche partage les représentations entre des tâches connexes, ce qui permet au modèle d'être plus efficace par rapport à la tâche initiale.
M6 contient 10 000 milliards de paramètres et est préentraîné sur un ensemble de données composé de 1,9 To d'images et de 292 Go de texte en langue chinoise. M6 peut être affiné pour de nombreuses tâches en aval, notamment la génération d'images guidées par le texte, la réponse à des questions visuelles et la correspondance image-texte. Le modèle et plusieurs expériences ont été décrits dans un article publié sur arXiv, une revue ouverte de prépublications électroniques d'articles scientifiques. M6 est basé sur l'architecture Transformer, modifiée pour accepter des données d'entrée d'image ainsi que du texte.
À titre de comparaison, le modèle MT-NLG (Megatron-Turing Natural Language Generation) de Microsoft et Nvidia est doté de 530 milliards de paramètres. MT-NLG est composé de 105 couches, utilise 280 GPU Nvidia A100 et était considéré comme le "modèle de langage de transformation monolithique le plus puissant au monde". Selon ses créateurs, il atteint une précision "inégalée" dans un large éventail de tâches en langage naturel - y compris l'autocomplétion de phrases et le raisonnement. D'un autre côté, le modèle GPT-3 d'OpenAI compte 175 milliards de paramètres et Switch Transformer de Google 1,6 milliard de paramètres.
Pour effectuer le préentraînement, DAMO Academy a utilisé plusieurs sources, notamment des encyclopédies en ligne, des forums de discussion et des sites de commerce électronique, pour créer un ensemble de données combinant du texte en langue chinoise et des images connexes. Après le préentraînement, les chercheurs d'Alibaba ont affiné le modèle pour effectuer plusieurs tâches de vision par ordinateur (CV -computer vision) et de traitement du langage naturel (NLP) : génération d'images, réponse à des questions visuelles, légendage d'images, génération de poèmes et correspondance image-texte.
Pour certaines de ces tâches, telles que la correspondance image-texte, M6 aurait montré des performances améliorées par rapport aux modèles de base. Les résultats pour d'autres tâches, telles que la génération d'images et la génération de poèmes, ont été évalués par des juges humains. Des modèles NLP de très grande taille, tels que GPT-3, ont démontré des performances quasi humaines, voire surhumaines, dans des tâches de référence. Inspirés par le succès de ces modèles, les chercheurs ont adapté l'architecture Transformer à d'autres domaines, notamment la vision par ordinateur et les problèmes combinés de vision et de langage.
En 2019, Microsoft a dévoilé l'IA UNITER (UNiversal Image-TExt Representation Learning), qui a atteint des performances de pointe sur des tâches de vision/langage, notamment la réponse à des questions visuelles et la recherche d'images et de textes. En 2020, Alibaba a publié un article sur InterBERT, sa première itération de M6, qu'elle a déployé sur son site de commerce électronique Taobao, où elle a observé une amélioration des taux de clics dans ses résultats de recherche. Plus tôt cette année, OpenAI a annoncé son modèle de génération d'images DALL-E, basé sur son populaire modèle NLP GPT-3.
Il a ensuite publié de nombreuses images démontrant sa capacité à générer des images surréalistes de haute qualité à partir de descriptions en langage naturel. L'un des problèmes posés par ces grands modèles est qu'ils nécessitent des ensembles de données de taille correspondante. Ainsi, pour former M6, les chercheurs d'Alibaba ont assemblé un ensemble de données combinant texte et image en langue chinoise qui, selon l'équipe, est "le premier corpus multimodal et multidomaine à grande échelle pour la préformation en chinois". Le jeu de données contient à la fois du texte en clair et des paires image-texte.
Il y a 60.5 millions d'images, chacune d'au moins 5 000 pixels, pour un total de 1.9 To, et 292.4 Go de texte contenant près de 420 millions de passages de texte avec près de 112 milliards de jetons. Pour effectuer le préentraînement, les images de l'ensemble de données sont divisées en plus petits patchs qui sont ensuite introduits dans un extracteur de caractéristiques pour produire une séquence de caractéristiques d'image. Les séquences de caractéristiques d'image et les séquences de texte sont ensuite introduites dans le transformateur comme c'est généralement le cas dans un modèle NLP typique.
M6 est préentraînée en utilisant plusieurs objectifs différents, notamment le débruitage du texte (similaire à BERT et à d'autres modèles NLP), le transfert d'image à texte, où le modèle apprend à générer des légendes d'images, et le transfert multimodal à texte, où le modèle apprend à générer une chaîne de texte cible à partir d'une entrée d'image et d'une entrée de texte masquée. Alibaba a formé une version de 10B (10 000 milliards) de paramètres de M6, appelée M6-10B, et une version de 100B (100 000 milliards) de paramètres basée sur un mélange d'experts (MoE - mixture of experts), appelée M6-100B.
Selon l'académie, M6 a atteint le niveau ultime de faible émission de carbone et de haute efficacité dans les modèles d'IA en utilisant 512 GPU pour former un réseau neuronal de 10 000 milliards de paramètres en dix jours. Par rapport au GPT-3 d'OpenAI, M6 aurait atteint la même échelle de paramètres avec seulement 1 % de sa consommation d'énergie. Toutefois, à l'heure actuelle, ni le modèle M6 ni les données d'entraînement n'ont été publiés, bien qu'Alibaba déclare avoir l'intention de publier l'ensemble des données pour "nourrir le développement de la communauté".
« Ils mentionnent un modèle 100B, mais pas de résultats, ce qui suggère que ça n'a pas vraiment marché. Et MOE = moins de calcul qu'un 100B dense », a déclaré Miles Brundage, le responsable de la recherche sur les politiques d'OpenAI, sur Twitter. Il s'agit tout de même d'un effort sérieux de données, d'ingénierie et d'évaluation, plus avancé que ce que j'aurais pu extrapoler à partir du premier LM chinois public à l'échelle GPT-2 il y a quelques mois », a-t-il ajouté.
Source : Rapport de l'étude
Et vous ?
Quel est votre avis sur le sujet ?
Voir aussi
NLP Cloud supporte désormais GPT-J, un modèle de traitement automatique du langage open source avancé, l'alternative open source à GPT-3
Project Turing : Microsoft et Nvidia créent un modèle de langage qui a 105 couches et 530 milliards de paramètres et nécessite 280 GPU A100, mais le système est encore biaisé
Google publie en open source Switch Transformer, un modèle d'IA de traitement du langage naturel avec un trillion de paramètres