Le traitement de l'IA nécessite une innovation complète sur les plates-formes matérielles et logicielles pour répondre aux demandes de calcul croissantes des réseaux neuronaux. L'utilisation de formats de nombres de précision inférieure pour améliorer l'efficacité du calcul, réduire l'utilisation de la mémoire et optimiser la bande passante de l'interconnexion est un élément clé de l'efficacité.
Pour obtenir ces avantages, l'industrie est passée d'une précision de 32 bits à une précision de 16 bits, voire de 8 bits. Les réseaux de transformateurs, qui constituent l'une des innovations les plus importantes de l'IA, bénéficient en particulier d'une précision en virgule flottante de 8 bits. Le fait de disposer d'un format d'échange commun permettra des avancées rapides et l'interopérabilité des plates-formes matérielles et logicielles pour faire progresser l'informatique.
NVIDIA, Arm et Intel ont rédigé conjointement un livre blanc, FP8 Formats for Deep Learning, décrivant une spécification de la virgule flottante 8 bits (FP8). Il fournit un format commun qui accélère le développement de l'IA en optimisant l'utilisation de la mémoire et fonctionne à la fois pour la formation et l'inférence de l'IA. Cette spécification FP8 comporte deux variantes, E5M2 et E4M3.
Ce format est nativement implémenté dans l'architecture Hopper de NVIDIA et a montré d'excellents résultats lors des premiers tests. Il bénéficiera immédiatement du travail effectué par l'écosystème plus large, y compris les frameworks d'IA, pour le mettre en œuvre pour les développeurs.
Compatibilité et flexibilité
Le FP8 minimise les écarts par rapport aux formats à virgule flottante IEEE 754 existants avec un bon équilibre entre le matériel et le logiciel pour tirer parti des implémentations existantes, accélérer l'adoption et améliorer la productivité des développeurs.
E5M2 utilise 5 bits pour l'exposant et 2 bits pour la mantisse et est un format IEEE FP16 tronqué. Dans les cas où une plus grande précision est requise au détriment d'une certaine plage numérique, le format E4M3 apporte quelques ajustements pour étendre la plage représentable avec un exposant de quatre bits et une mantisse de trois bits.
Ce nouveau format permet d'économiser des cycles de calcul supplémentaires puisqu'il n'utilise que huit bits. Il peut être utilisé à la fois pour l'apprentissage et l'inférence de l'IA sans nécessiter de refonte entre les précisions. De plus, en minimisant les écarts par rapport aux formats à virgule flottante existants, il offre la plus grande latitude pour les innovations futures en matière d'IA tout en respectant les conventions actuelles.
Formation et inférence de haute précision
Les tests du format FP8 proposé montrent une précision comparable à celle des précisions de 16 bits dans un large éventail de cas d'utilisation, d'architectures et de réseaux. Les résultats sur les transformateurs, la vision par ordinateur et les réseaux GAN montrent tous que la précision de l'apprentissage au format FP8 est similaire à celle des précisions de 16 bits, tout en offrant des gains de vitesse significatifs.
Dans la figure 1, les différents réseaux utilisent différentes mesures de précision (PPL et perte), comme indiqué.
Dans MLPerf Inference v2.1, le principal benchmark de l'industrie de l'IA, NVIDIA Hopper a exploité ce nouveau format FP8 pour accélérer de 4,5 fois le modèle de haute précision de BERT, gagnant ainsi en débit sans compromettre la précision.
Vers la normalisation
NVIDIA, Arm et Intel ont publié cette spécification dans un format ouvert et sans licence pour encourager une large adoption par l'industrie. Ils vont également soumettre cette proposition à l'IEEE.
En adoptant un format interchangeable qui maintient la précision, les modèles d'IA fonctionneront de manière cohérente et performante sur toutes les plates-formes matérielles et contribueront à faire progresser l'état de l'art de l'IA.
Les organismes de normalisation et l'industrie dans son ensemble sont encouragés à construire des plateformes capables d'adopter efficacement la nouvelle norme. Cela permettra d'accélérer le développement et le déploiement de l'IA en fournissant une précision universelle et interchangeable.
Télécharger FP8 Formats for Deep Learning
Source : Nvidia
Et vous ?
Qu'en pensez-vous ?
Voir aussi :
Les nouvelles GPU NVIDIA pour l'intelligence artificielle serait jusqu'à 4,5 fois plus rapide que les précédentes, selon NVIDIA
Le passage de Nvidia à l'open source est officiel, la société publie des modules du noyau GPU de Linux en open source avec une double licence GPL/MIT, pour améliorer le support des GPU sous Linux
GPU : la pénurie est terminée et le surplus de GPU est arrivé, NVIDIA déclare faire face à un stock excédentaire, lors de la conférence téléphonique sur les résultats du deuxième trimestre 2023
NVIDIA, Arm et Intel proposent un nouveau standard pour rendre le traitement de l'IA plus efficace
Dans un livre blanc décrivant une spécification de la virgule flottante 8 bits (FP8)
NVIDIA, Arm et Intel proposent un nouveau standard pour rendre le traitement de l'IA plus efficace
Dans un livre blanc décrivant une spécification de la virgule flottante 8 bits (FP8)
Le , par Sandra Coret
Une erreur dans cette actualité ? Signalez-nous-la !