IdentifiantMot de passe
Loading...
Mot de passe oublié ?Je m'inscris ! (gratuit)

Vous êtes nouveau sur Developpez.com ? Créez votre compte ou connectez-vous afin de pouvoir participer !

Vous devez avoir un compte Developpez.com et être connecté pour pouvoir participer aux discussions.

Vous n'avez pas encore de compte Developpez.com ? Créez-en un en quelques instants, c'est entièrement gratuit !

Si vous disposez déjà d'un compte et qu'il est bien activé, connectez-vous à l'aide du formulaire ci-dessous.

Identifiez-vous
Identifiant
Mot de passe
Mot de passe oublié ?
Créer un compte

L'inscription est gratuite et ne vous prendra que quelques instants !

Je m'inscris !

NVIDIA, Arm et Intel proposent un nouveau standard pour rendre le traitement de l'IA plus efficace
Dans un livre blanc décrivant une spécification de la virgule flottante 8 bits (FP8)

Le , par Sandra Coret

0PARTAGES

7  0 
Le traitement de l'IA nécessite une innovation complète sur les plates-formes matérielles et logicielles pour répondre aux demandes de calcul croissantes des réseaux neuronaux. L'utilisation de formats de nombres de précision inférieure pour améliorer l'efficacité du calcul, réduire l'utilisation de la mémoire et optimiser la bande passante de l'interconnexion est un élément clé de l'efficacité.

Pour obtenir ces avantages, l'industrie est passée d'une précision de 32 bits à une précision de 16 bits, voire de 8 bits. Les réseaux de transformateurs, qui constituent l'une des innovations les plus importantes de l'IA, bénéficient en particulier d'une précision en virgule flottante de 8 bits. Le fait de disposer d'un format d'échange commun permettra des avancées rapides et l'interopérabilité des plates-formes matérielles et logicielles pour faire progresser l'informatique.

NVIDIA, Arm et Intel ont rédigé conjointement un livre blanc, FP8 Formats for Deep Learning, décrivant une spécification de la virgule flottante 8 bits (FP8). Il fournit un format commun qui accélère le développement de l'IA en optimisant l'utilisation de la mémoire et fonctionne à la fois pour la formation et l'inférence de l'IA. Cette spécification FP8 comporte deux variantes, E5M2 et E4M3.

Ce format est nativement implémenté dans l'architecture Hopper de NVIDIA et a montré d'excellents résultats lors des premiers tests. Il bénéficiera immédiatement du travail effectué par l'écosystème plus large, y compris les frameworks d'IA, pour le mettre en œuvre pour les développeurs.

Compatibilité et flexibilité

Le FP8 minimise les écarts par rapport aux formats à virgule flottante IEEE 754 existants avec un bon équilibre entre le matériel et le logiciel pour tirer parti des implémentations existantes, accélérer l'adoption et améliorer la productivité des développeurs.

E5M2 utilise 5 bits pour l'exposant et 2 bits pour la mantisse et est un format IEEE FP16 tronqué. Dans les cas où une plus grande précision est requise au détriment d'une certaine plage numérique, le format E4M3 apporte quelques ajustements pour étendre la plage représentable avec un exposant de quatre bits et une mantisse de trois bits.

Ce nouveau format permet d'économiser des cycles de calcul supplémentaires puisqu'il n'utilise que huit bits. Il peut être utilisé à la fois pour l'apprentissage et l'inférence de l'IA sans nécessiter de refonte entre les précisions. De plus, en minimisant les écarts par rapport aux formats à virgule flottante existants, il offre la plus grande latitude pour les innovations futures en matière d'IA tout en respectant les conventions actuelles.

Formation et inférence de haute précision

Les tests du format FP8 proposé montrent une précision comparable à celle des précisions de 16 bits dans un large éventail de cas d'utilisation, d'architectures et de réseaux. Les résultats sur les transformateurs, la vision par ordinateur et les réseaux GAN montrent tous que la précision de l'apprentissage au format FP8 est similaire à celle des précisions de 16 bits, tout en offrant des gains de vitesse significatifs.


Dans la figure 1, les différents réseaux utilisent différentes mesures de précision (PPL et perte), comme indiqué.


Dans MLPerf Inference v2.1, le principal benchmark de l'industrie de l'IA, NVIDIA Hopper a exploité ce nouveau format FP8 pour accélérer de 4,5 fois le modèle de haute précision de BERT, gagnant ainsi en débit sans compromettre la précision.

Vers la normalisation

NVIDIA, Arm et Intel ont publié cette spécification dans un format ouvert et sans licence pour encourager une large adoption par l'industrie. Ils vont également soumettre cette proposition à l'IEEE.

En adoptant un format interchangeable qui maintient la précision, les modèles d'IA fonctionneront de manière cohérente et performante sur toutes les plates-formes matérielles et contribueront à faire progresser l'état de l'art de l'IA.

Les organismes de normalisation et l'industrie dans son ensemble sont encouragés à construire des plateformes capables d'adopter efficacement la nouvelle norme. Cela permettra d'accélérer le développement et le déploiement de l'IA en fournissant une précision universelle et interchangeable.

Télécharger FP8 Formats for Deep Learning

Source : Nvidia

Et vous ?

Qu'en pensez-vous ?

Voir aussi :

Les nouvelles GPU NVIDIA pour l'intelligence artificielle serait jusqu'à 4,5 fois plus rapide que les précédentes, selon NVIDIA

Le passage de Nvidia à l'open source est officiel, la société publie des modules du noyau GPU de Linux en open source avec une double licence GPL/MIT, pour améliorer le support des GPU sous Linux

GPU : la pénurie est terminée et le surplus de GPU est arrivé, NVIDIA déclare faire face à un stock excédentaire, lors de la conférence téléphonique sur les résultats du deuxième trimestre 2023

Une erreur dans cette actualité ? Signalez-nous-la !

Avatar de onilink_
Membre émérite https://www.developpez.com
Le 19/09/2022 à 9:47
C'est très impressionnant de perdre si peu en précision sur les résultats.

J'imagine que la structure interne d'un réseau de neurones influe bien plus sur sa "qualité" que la valeur exacte des poids associés à chacun de ses neurone.

Mais je suis quand même étonné qu'on puisse autant "compresser" les poids.
Je me demande ce que ça donnerait sur de gros modèles comme Stable Diffusion, sachant que la communauté a déjà fait une version 16 bits pour ceux qui ont des GPU avec < 10Go de VRAM.
2  0