Microsoft et Nvidia fusionnent leurs modèles de NLP
MT-NLG a été développé par les ingénieurs de Microsoft et de Nvidia. Il est plus puissant que les précédents systèmes basés sur des transformateurs formés par les deux entreprises, à savoir le modèle Turing-NLG de Microsoft et Megatron-LM de Nvidia. Selon Microsoft et Nvidia, MT-NLG atteint une précision "inégalée" dans un large éventail de tâches en langage naturel - y compris l'autocomplétion de phrases, les questions et réponses, la lecture et le raisonnement. Il peut également effectuer ces tâches avec peu ou pas de réglage fin, ce que l'on connaît aujourd'hui sous le nom d'apprentissage "few-shot" (FSL) ou "zero-shot" (ZSL).
« La qualité et les résultats que nous avons obtenus sont un grand pas en avant dans le voyage vers le déblocage de toutes les promesses de l'IA dans le traitement du langage naturel. Les innovations de DeepSpeed et de Megatron-LM profiteront au développement de modèles d'IA actuels et futurs et rendront l'entraînement de grands modèles d'IA moins coûteux et plus rapide », ont écrit lundi Paresh Kharya, directeur principal de la gestion des produits et du marketing pour l'informatique accélérée de Nvidia, et Ali Alvi, directeur de programme de groupe pour l'équipe Turing de Microsoft, dans un billet de blogue.
« Nous sommes impatients de voir comment MT-NLG façonnera les produits de demain et incitera la communauté à repousser encore plus loin les limites du traitement du langage naturel (NLP). Le voyage est long et loin d'être terminé, mais nous sommes enthousiasmés par ce qui est possible et ce qui nous attend », ont-ils ajouté. À mesure que ces modèles évoluent, les chercheurs et ingénieurs en IA doivent trouver toutes sortes de techniques et d'astuces pour les entraîner. Cela nécessite une coordination minutieuse : le modèle et ses données d'entraînement doivent être stockés et traités sur de nombreuses puces en même temps.
Pour entraîner MT-NLG, Microsoft et Nvidia disent avoir créé un ensemble de données d'entraînement contenant 270 milliards de mots clés provenant de sites Web anglophones. Les mots clés, qui sont généralement une façon de séparer les morceaux de texte en unités plus petites dans le langage naturel, peuvent être des mots, des caractères ou des parties de mots. Selon l'équipe MT-NLG, comme tous les modèles d'intelligence artificielle, MT-NLP a dû s'"entraîner" en ingérant un ensemble d'exemples pour apprendre des modèles parmi les points de données, comme les règles grammaticales et syntaxiques.
L'ensemble de données provient en grande partie de The Pile, une collection de 835 Go de 22 ensembles de données plus petits créés par EleutherAI, un groupe de recherche en IA open source. Selon les informations fournies par Microsoft et Nvidia, The Pile couvre des sources académiques (par exemple, Arxiv, PubMed), des communautés (StackExchange, Wikipedia), des dépôts de code (GitHub), et plus encore. L'équipe dit avoir trié et combiné ces données avec des instantanés filtrés du Common Crawl, une grande collection de pages Web comprenant des articles d'actualité et des messages de médias sociaux.
Le coût important des modèles de langage massifs
Selon les analystes, des projets tels que MT-NLP, Jurassic-1 d'AI21 Labs, PanGu-Alpha de Huawei, HyperCLOVA de Naver et Wu Dao 2.0 de l'Académie d'IA de Pékin sont impressionnants d'un point de vue académique, mais leur construction n'est pas bon marché. Par exemple, l'ensemble de données d'entraînement pour le modèle GPT-3 d'OpenAI - l'un des plus grands modèles de langage au monde - représentait 45 téraoctets, suffisamment pour remplir 90 disques durs de 500 Go. Les coûts de formation en IA auraient été divisés par 100 entre 2017 et 2019, mais les totaux dépasseraient toujours les budgets de calcul de la plupart des startups.
MLT-NLG a été entraîné à l'aide du superordinateur d'apprentissage automatique Selene de Nvidia, un système composé de 560 serveurs Nvidia DGX A100 - chaque serveur contenant huit GPU Nvidia A100 de 80 Go. Selene est également alimenté par les processeurs CPU EPYC 7v742 d'AMD et son coût est estimé à plus de 85 millions de dollars. Les 4 480 GPU utilisent NvLink et NVSwitch pour se connecter les uns aux autres. La formation de ces modèles est incroyablement coûteuse et, même s'ils fonctionnent essentiellement sur du matériel haut de gamme, elle nécessite des modifications logicielles pour réduire les temps de formation.
Nvidia et Microsoft ont utilisé DeepSpeed, une bibliothèque d'optimisation d'apprentissage profond contenant du code PyTorch, qui a permis aux ingénieurs d'intégrer davantage de données dans de nombreux pipelines en parallèle pour faire évoluer Megatron-LM. Au total, 1,5 To de données ont été traités pour entraîner le modèle dans un processus qui a duré un peu plus d'un mois. En outre, GPT-3 a nécessité environ 3,1423^23 opérations en virgule flottante par seconde (FLOPS) de calcul pendant la formation. En informatique, le FLOPS (floating-point operations per second) est une mesure de la performance brute de traitement.
Il est généralement utilisé pour comparer différents types de matériel. En supposant qu'OpenAI ait réservé 28 téraflops (28 trillions d'opérations en virgule flottante par seconde) de calcul sur une banque de GPU Nvidia V100, un GPU commun disponible par le biais de services en nuage, il faudrait 4,6 millions de dollars pour un seul cycle de formation. Un GPU Nvidia RTX 8000 avec 15 téraflops de calcul serait nettement moins cher, mais il faudrait 665 ans pour terminer la formation. Dans le cas de MT-NLP, Microsoft et Nvidia affirment avoir observé entre 113 et 126 téraflops par seconde par GPU lors de l'apprentissage.
Le coût s'est probablement élevé à plusieurs millions de dollars. Selon un rapport de Synced, la formation d'un modèle de détection des "fake news" mis au point par des chercheurs de l'université de Washington a coûté 25 000 dollars, et Google a dépensé environ 6 912 dollars pour former un modèle de langage appelé BERT qu'il a utilisé pour améliorer la qualité des résultats de Google Search.
Les coûts de stockage augmentent également rapidement lorsque l'on traite des ensembles de données de l'ordre du téraoctet ou du pétaoctet. Par exemple, selon CrowdStorage, l'un des ensembles de données accumulés par l'équipe de conduite autonome de Tesla - 1,5 pétaoctet de séquences vidéo - coûterait plus de 67 500 dollars pour le stocker dans Azure pendant trois mois.
Des biais, mais aussi des impacts sur l'environnement
Le traitement d'un grand volume de texte signifie que l'ensemble de données ne peut pas être nettoyé du langage toxique. Malheureusement, cela signifie que MT-NLG peut générer des résultats offensants qui peuvent être racistes ou sexistes. En effet, il est bien établi que les modèles tels que le MT-NLP peuvent amplifier les biais des données sur lesquelles ils ont été formés. Et Microsoft et Nvidia reconnaissent que le modèle "reprend les stéréotypes et les biais des données [de formation]. « Nos observations montrent que le modèle capte les stéréotypes et les préjugés des données sur lesquelles il est entraîné », ont déclaré Kharya et Alvi.
Dans un article, le "Center on Terrorism, Extremism, and Counterterrorism" du Middlebury Institute of International Studies affirme que GPT-3 et des modèles similaires peuvent générer des textes "informatifs" et "influents" susceptibles de radicaliser les gens vers des idéologies et des comportements d'extrême droite. Un groupe de l'université de Georgetown a utilisé le modèle GPT-3 pour générer des informations erronées, y compris des histoires autour d'un faux récit, des articles modifiés pour promouvoir une fausse perspective et des tweets reprenant des points particuliers de la désinformation.
Selon les analystes, ce constat s'explique probablement par le fait qu'une partie de l'ensemble de données provient de communautés où les préjugés sexistes, raciaux, physiques et religieux sont omniprésents, ce qui ne peut pas être complètement corrigé. Microsoft et Nvidia affirment qu'ils s'engagent à travailler pour résoudre [le] problème et encouragent la poursuite des recherches pour aider à quantifier le biais du modèle. Ils affirment également que toute utilisation de MT-NLP en production "doit garantir que des mesures appropriées sont mises en place pour atténuer et minimiser les dommages potentiels pour les utilisateurs".
Si vous souhaitez essayer MT-NLG, il y a une mauvaise nouvelle : il ne sera pas disponible dans le commerce de sitôt et aucune date n'a été annoncée. Par ailleurs, les effets de l'IA et de l'entraînement des modèles d'apprentissage automatique sur l'environnement ont également été mis en lumière. En juin 2020, des chercheurs de l'université du Massachusetts à Amherst ont publié un rapport estimant que la quantité d'énergie nécessaire à la formation et à la recherche d'un certain modèle implique l'émission d'environ 283 tonnes de dioxyde de carbone. Il s'agit d'une importante quantité de CO2 rejetée en très peu de temps.
Selon les chercheurs, cela équivaut à près de cinq fois les émissions d'une voiture américaine moyenne sur toute sa durée de vie. OpenAI a elle-même admis que des modèles comme Codex nécessitent des quantités importantes de calculs - de l'ordre de centaines de pétaflops par jour - ce qui contribue aux émissions de carbone. D'autres rapports parus au cours de ces deux dernières années apportent tout de même ce que l'on pourrait appeler une bonne nouvelle : le coût des FLOPS et des opérations d'apprentissage automatique de base a diminué au cours des dernières années.
Une étude réalisée par OpenAI en 2020 a révélé que, depuis 2012, la quantité de calcul nécessaire pour entraîner un modèle à la même performance de classification d'images dans un benchmark populaire - ImageNet - a diminué d'un facteur de deux tous les 16 mois. D'autres recherches récentes suggèrent aussi que les grands modèles de langage ne sont pas toujours plus complexes que les petits modèles, selon les techniques utilisées pour les entraîner.
Source : Microsoft
Et vous ?
Quel est votre avis sur le sujet ?
Que pensez-vous du modèle d'IA MT-NLG de Microsoft et Nvidia ?
Selon vous, comment peut-on éliminer les biais des modèles de langage ?
Que pensez-vous des impacts environnementaux de la formation de ces modèles de langage ?
Voir aussi
Un faux blog d'un lycéen généré par GPT-3, l'IA de traitement du langage naturel d'OpenAI, a trompé des dizaines de milliers de personnes
Open AI présente DALL-E (comme GPT-3), un modèle qui crée des images à partir de texte pour un large éventail de concepts exprimables en langage naturel
GPT-3, le système de génération de texte d'OpenAI, produit désormais 4,5 milliards de mots par jour, avec une précision de 91 %
CodeCarbon, un outil open source pour suivre les émissions de CO2 générées par la recherche sur l'apprentissage machine, afin d'aider les développeurs IA à réduire leur empreinte carbone