Les transformateurs sont devenus le nouveau standard dans le NLP
Les modèles d'IA de traitement du langage naturel basés sur les transformateurs se popularisent davantage. Les transformateurs constituent une nouvelle architecture introduite en NPL en 2017 pour résoudre les tâches séquentielles tout en traitant facilement les dépendances à longue portée. Ils sont formés par d'énormes réseaux préentraînés sur des quantités massives de texte non structuré, capturant des propriétés linguistiques utiles. Cela donne des modèles que l'on peut ensuite affiner et utiliser dans de multiple cas d'utilisation, dont les réponses aux questions, la traduction automatique, la synthèse de texte, etc.
Trois chercheurs de Google Brain, William Fedus, Barret Zoph et Noam Shazeer, ont rendu public cette année le Switch Transformer (ST), un modèle d'IA de traitement du langage naturel basé sur les transformateurs. Selon les chercheurs, le modèle met à l'échelle jusqu'à 1,6T paramètres et améliore le temps de formation jusqu'à 7x par rapport au modèle T5 NLP, avec une précision comparable. L'équipe a décrit le modèle dans un article publié dans la revue scientifique arXiv. Le Switch Transformer utilise un paradigme de mélange d'experts (MoE - Mixture of Experts) pour combiner plusieurs blocs d'attention du transformateur.
Comme seul un sous-ensemble du modèle est utilisé pour traiter une entrée donnée, le nombre de paramètres du modèle peut être augmenté tout en maintenant le coût de calcul stable. Les chercheurs estiment que, par rapport au modèle T5 NLP de Google, les versions de base du Switch Transformer permettent d'atteindre les objectifs de mesure de la perplexité avant la formation en 1/7 du temps de formation. Avec 1,6T de paramètre, le ST surpasse un T5-XXL sur la mesure de la perplexité, avec des performances comparables ou supérieures sur les tâches NLP en aval, malgré une formation sur la moitié des données.
En effet, depuis son introduction, l'architecture du transformateur est devenue le modèle principal d'apprentissage profond utilisé pour la recherche en NPL. Les modèles les plus populaires à ce jour basés sur cette technologie sont GPT-3 d'OpenAI et T5 NPL de Google. Les efforts récents ont porté sur l'augmentation de la taille de ces modèles, mesurée en nombre de paramètres, avec des résultats pouvant dépasser les performances humaines. L'équipe d'OpenAI ayant mis au point GPT-3 a découvert que les performances de la NPL s'échelonnent en effet en fonction du nombre de paramètres.
Le mélange d'experts permet d'accroître le nombre de paramètres
En développant le ST, l'équipe de Google Brain a cherché à maximiser le nombre de paramètres tout en maintenant constant le nombre de FLOPS par exemple et en s'entraînant sur des "quantités de données relativement faibles". C'est la raison pour laquelle les chercheurs ont fait appel à la notion du mélange d'experts. Pour rappel, le MoE est un paradigme développé en 1991 par une équipe de recherche comprenant Geoff Hinton, pionnier de l'apprentissage profond alors à l'Université de Toronto et maintenant à Google Brain. Il fait partie de l'équipe qui a mis au point le Switch Transformer.
En 2017, Hinton et ses collègues de Google Brain ont utilisé le MoE pour créer un modèle de PNL basé sur un réseau neuronal récurrent (RNN) de 137B (173 billions) de paramètres qui aurait obtenu des résultats de pointe en matière de modélisation linguistique et de références de traduction automatique. Pour cette fois, l'équipe de chercheurs a informé que le Switch Transformer utilise un algorithme modifié du MoE appelé Switch Routing : au lieu d'activer plusieurs experts et de combiner leurs sorties, Switch Routing choisit un seul expert pour traiter une entrée donnée.
Selon les chercheurs, ce procédé a l'avantage de simplifier le calcul du routage et de réduire les coûts de communication, car les modèles des experts individuels sont hébergés sur différents dispositifs GPU. Toutefois, ils conviennent que ce système présente un inconvénient : il augmente les risques d'instabilité de la formation, notamment en cas d'utilisation d'une arithmétique de précision réduite, en raison des décisions de commutation "difficiles". L'équipe a atténué ce problème en réduisant le facteur d'échelle pour l'initialisation des paramètres du modèle.
En outre, elle a utilisé le Mesh-TensorFlow (MTF) pour entraîner le modèle, en profitant du parallélisme des données et du modèle. Pour étudier les performances de l'architecture à différentes échelles, l'équipe a formé des modèles de différentes tailles, de 223M de paramètres jusqu'à 1,6T de paramètres, constatant que la "dimension la plus efficace pour la mise à l'échelle" était le nombre d'experts. Les performances des modèles pour les tâches de NPL en amont et en aval ont été comparées à celles des modèles T5 nécessitant des FLOP similaires par échantillon.
Les résultats de la comparaison montrent que les modèles du Switch Transformer de taille de base ont surpassé le T5 sur les benchmarks GLUE, SuperGLUE et SQuAD, tout en atteignant une accélération 7x sur le temps de préformation. Le Switch Transformer à grande échelle, avec 1,6T de paramètres et 2048 experts, a surpassé un modèle T5 de 13B de paramètres dans la perplexité de préentraînement, tout en terminant en 1/4 du temps. Dans une discussion sur Reddit, les commentateurs ont souligné que l'équipe de Google Brain n'a pas comparé les performances de leur modèle à celles de GPT-3.
Les chercheurs auraient spéculé que cela était dû à un manque d'information dans le résultat publié par OpenAI. Bien que Google n'ait pas publié les pondérations des modèles préformés pour le Switch Transformer, le code d'implémentation est disponible sur GitHub.
Sources : Rapport de l'étude, Code d'implémentation
Et vous ?
Que pensez-vous du modèle d'IA Switch Transformer de Google ?
Voir aussi
Open AI propose en bêta privée son modèle de traitement du langage naturel GPT-3. Ses applications vont de la génération de texte cohérent à la génération de code en passant par la création d'apps
L'IA n'a toujours pas le bon sens pour comprendre le langage humain, les chercheurs devraient aller au-delà du deep learning dans le traitement du langage naturel, selon une étude
Open AI présente DALL-E (comme GPT-3), un modèle qui crée des images à partir de texte pour un large éventail de concepts exprimables en langage naturel
Un faux blog d'un lycéen généré par GPT-3, l'IA de traitement du langage naturel d'OpenAI a trompé des dizaines de milliers de personnes