Les entreprises qui développent leurs modèles de réseaux neuronaux pourraient réduire les coûts de formation onéreux en utilisant une nouvelle technique mise au point par des chercheurs de Microsoft et d'OpenAI. Après avoir paramétré une version de GPT-3 avec une attention relative dans µP, ils ont réglé un petit modèle proxy avec 40 millions de paramètres avant de copier la meilleure combinaison d'hyperparamètres sur la variante de 6,7 milliards de paramètres de GPT-3, comme prescrit par µTransfer. Le calcul total utilisé pendant cette étape de réglage n'a représenté que 7 % du calcul utilisé pour le pré-entraînement du modèle final de 6,7 milliards. Ce modèle µTransfer a surpassé le modèle de la même taille (avec une attention absolue) dans l'article original GPT-3.Les systèmes d'apprentissage automatique sont souvent comparés à des boîtes noires. Des données sont introduites dans un algorithme et d'autres données en sortent. Il peut s'agir d'une étiquette classant un objet dans une image, d'une chaîne de texte ou même d'un bout de code. Le calcul qui s'effectue au milieu implique la manipulation d'innombrables matrices et constitue un processus mystificateur et manuel que les experts ne comprennent pas entièrement.
GPT-3 est un modèle de langage autorégressif qui utilise l'apprentissage profond pour produire des textes similaires à ceux des humains. Il s'agit du modèle de prédiction du langage de troisième génération de la série GPT-n créé par OpenAI, un laboratoire de recherche en intelligence artificielle basé à San Francisco et composé de la société à but lucratif OpenAI LP et de sa société mère, la société à but non lucratif OpenAI Inc.
Debut 2020, OpenAI a annoncé que son générateur de texte GPT-3 avait franchi la barre de 300 applications qui l’utilise, et qu'il produit 4,5 milliards de mots par jour, avec une précision de 91 %. « Neuf mois après le lancement de notre premier produit commercial, l'API OpenAI, plus de 300 applications utilisent désormais GPT-3, et des dizaines de milliers de développeurs du monde entier construisent sur notre plateforme. Nous générons actuellement en moyenne 4,5 milliards de mots par jour et nous continuons à faire augmenter le trafic de production », avait déclaré OpenAI.
Il existe plusieurs propriétés que les développeurs manipulent pour améliorer les performances d'un modèle pendant la phase de formation. Ces « hyperparamètres » sont distincts des données et sont souvent ajustés manuellement sur la base de la seule intuition. Pour trouver les hyperparamètres optimaux, il faut entraîner et ajuster le modèle de nombreuses fois ; tous ces calculs sont coûteux et prennent beaucoup de temps. À mesure que les systèmes deviennent de plus en plus grands avec des milliards et des milliards de milliards de paramètres, ils deviennent trop coûteux de les affiner.
« Dans la pratique, les gens s'appuient sur de nombreuses règles empiriques pour deviner les hyperparamètres à utiliser pour un grand modèle, sans être sûrs de leur optimalité », ont déclaré Greg Yang, chercheur principal chez Microsoft, et Edward Hu, doctorant au Mila, un institut de recherche basé à Montréal.
Le réglage des hyperparamètres (HP) dans l'apprentissage profond est un processus coûteux, prohibitif pour les réseaux de neurones (NNs) avec des milliards de paramètres. Microsoft montre que, dans la paramétrisation de mise à jour maximale (μP) récemment découverte, de nombreux HP optimaux restent stables même si la taille du modèle change. Cela conduit à un nouveau paradigme de réglage des HP que les chercheurs de Microsoft appelent μTransfer : paramétrer le modèle cible dans μP, régler les HP indirectement sur un modèle plus petit, et zero-shot transfer les transférer au modèle de taille réelle, c'est-à-dire sans régler directement ce dernier du tout.
Les chercheurs vérifient μTransfer sur Transformer et ResNet :
- en transférant les HP de pré-entraînement d'un modèle de 13M de paramètres, nous surpassons les chiffres publiés de BERT-large (350M de paramètres), avec un coût total de réglage équivalent au pré-entraînement de BERT-large une fois ;
- en transférant de 40M de paramètres, nous surpassons les chiffres publiés du modèle GPT-3 de 6.7B, avec un coût de réglage de seulement 7 % du coût total de pré-entraînement. Une implémentation Pytorch de notre technique est disponible sur github.com/microsoft/mup et peut être installée via pip install mup.
μP s'avère être la seule paramétrisation « naturelle » qui possède cette propriété de stabilité des hyperparamètres sur la largeur, comme vérifié empiriquement dans le gif ci-dessous sur des MLP formés avec SGD. Ici, à travers le temps, les chercheurs interpolent entre la valeur par défaut de PyTorch et le taux d'apprentissage et les mises à l'échelle d'initialisation de μP (à droite), et ils mettent à l'échelle le modèle de largeur 256 (log2(largeur)=8) à la largeur 2^13 = 8192 en utilisant cette règle d'échelle interpolée (à gauche).
Ce repo contient le code source du package mup, l’outil qui rend l'implémentation de μP dans les modèles Pytorch sans effort et avec moins d'erreurs.
Avec des chercheurs d'OpenAI, Greg Yang et Edward Hu ont conçu une méthode décrite dans un article, nommée μTransfer (prononcez mu-transfer) pour faciliter le réglage fin des grands réseaux neuronaux. Dans un premier temps, ils trouvent les hyperparamètres optimaux en bricolant un modèle plus petit, puis les transfèrent à un système plus grand et à plus grande échelle. L'équipe a expérimenté le μTransfert sur l'architecture GPT-3 de génération de texte, en réutilisant les hyperparamètres d'un modèle de 40 millions de paramètres vers un modèle de 6,7 milliards de paramètres.
Microsoft a annoncé en 2019 un investissement d'un milliard de dollars dans OpenAI en vue de développer de nouvelles technologies utilisant l'intelligence artificielle. Cela lui permet également de devenir le fournisseur exclusif de services de cloud computing pour la firme d'Elon Musk. Le fruit de cette collaboration a vu le jour en mai 2020 avec la sortie d'un nouveau supercalculateur construit exclusivement pour OpenAI sur Azure. Comme l'avait indiqué la société, ce superordinateur est la cinquième machine la plus performante au monde.
En septembre 2020, Microsoft a renforcé son partenariat avec OpenAI grâce à un accord signé dans le cadre du GPT-3. En effet, le géant de la technologie basé à Redmond dans l'État de Washington a acheté une licence exclusive de la technologie sous-jacente à GPT-3. Suite à cette collaboration, Kevin Scott n'a pas manqué de faire part de ses sentiments, tout en expliquant les avantages qu'elle apporte à la firme de Redmond ainsi qu'à leurs clients.
« Je suis très heureux d’annoncer que Microsoft s’associe à OpenAI pour obtenir la licence exclusive de GPT-3, ce qui nous permettra de tirer parti de ses innovations techniques pour développer et fournir des solutions d’IA avancées à nos clients, ainsi que pour créer de nouvelles solutions qui exploitent l’incroyable puissance de la génération avancée du langage naturel. Nous considérons qu’il s’agit d’une opportunité incroyable d’étendre notre plateforme d’IA alimentée par Azure d’une manière qui démocratise la technologie de l’IA, permet de nouveaux produits, services et expériences, et augmente l’impact positif de l’IA à grande échelle », a-t-il expliqué.
Microsoft poursuit cette vision depuis un certain temps par le biais de Power Platform, sa suite de logiciels low code, no code destinée aux entreprises. Ces programmes fonctionnent comme des applications Web et aident les entreprises qui ne peuvent pas embaucher des programmeurs expérimentés à s'attaquer à des tâches numériques de base comme l'analyse, la visualisation des données et l'automatisation des flux de travail. Les qualités de GPT-3 ont trouvé une place dans PowerApps, un programme de la suite utilisé pour créer des applications web et mobiles simples.
En mAI 2021, Microsoft a annoncé son premier cas d’utilisation commerciale de GPT-3 : une fonction d'assistance dans le logiciel PowerApps de l'entreprise qui transforme le langage naturel en code prêt à l...
La fin de cet article est réservée aux abonnés. Soutenez le Club Developpez.com en prenant un abonnement pour que nous puissions continuer à vous proposer des publications.