NVIDIA publie un ensemble de données ouvertes et des modèles pour l'IA vocale multilingue. Le nouvel ensemble de données Granary, qui comprend environ 1 million d'heures d'enregistrements audio, a été utilisé pour former des modèles d'IA hautement précis et à haut débit pour la transcription et la traduction audio.
NVIDIA développe des processeurs graphiques (GPU), des systèmes sur puce (SoC) et des interfaces de programmation d'applications (API) pour la science des données, le calcul haute performance et les applications mobiles et automobiles. Initialement axée sur les GPU pour les jeux vidéo, il a élargi leur utilisation à d'autres marchés, notamment l'intelligence artificielle (IA), la visualisation professionnelle et le calcul intensif. Les gammes de produits de l'entreprise comprennent les GPU GeForce pour les jeux et les tâches créatives, ainsi que les GPU professionnels pour l'informatique de pointe, la recherche scientifique et les applications industrielles.
Sur les quelque 7 000 langues que compte le monde, seule une infime partie est prise en charge par les modèles de langage d'IA. NVIDIA s'attaque à ce problème avec un nouvel ensemble de données et des modèles qui prennent en charge le développement d'une IA de reconnaissance vocale et de traduction de haute qualité pour 25 langues européennes, y compris des langues pour lesquelles les données disponibles sont limitées, comme le croate, l'estonien et le maltais.
Ces outils permettront aux développeurs d'adapter plus facilement les applications d'IA afin de prendre en charge les utilisateurs du monde entier avec une technologie vocale rapide et précise pour des cas d'utilisation à l'échelle de la production, tels que les chatbots multilingues, les agents vocaux du service clientèle et les services de traduction en temps quasi réel. Ils comprennent :
- Granary, un corpus open source massif de données vocales multilingues qui contient environ un million d'heures d'audio, dont près de 650 000 heures pour la reconnaissance vocale et plus de 350 000 heures pour la traduction vocale.
- NVIDIA Canary-1b-v2, un modèle à un milliard de paramètres entraîné sur Granary pour une transcription de haute qualité des langues européennes, ainsi que la traduction entre l'anglais et deux douzaines de langues prises en charge. Il arrive en tête du classement Hugging Face des modèles ouverts pour la précision de la reconnaissance vocale multilingue.
- NVIDIA Parakeet-tdt-0.6b-v3, un modèle rationalisé de 600 millions de paramètres conçu pour la transcription en temps réel ou à grand volume des langues prises en charge par Granary. Il affiche le débit le plus élevé des modèles multilingues du classement Hugging Face, mesuré en durée d'audio transcrite divisée par le temps de calcul.
L'ensemble de données, ainsi que les nouveaux modèles Canary et Parakeet, sont désormais disponibles sur Hugging Face.
Comment Granary remédie à la rareté des données
Pour développer l'ensemble de données Granary, l'équipe d'IA vocale de NVIDIA a collaboré avec des chercheurs de l'université Carnegie Mellon et de la Fondazione Bruno Kessler. L'équipe a fait passer des fichiers audio non étiquetés par un pipeline de traitement innovant alimenté par la boîte à outils NVIDIA NeMo Speech Data Processor, qui les a transformés en données structurées de haute qualité.
Ce pipeline a permis aux chercheurs d'améliorer les données vocales publiques afin de les rendre utilisables pour l'entraînement de l'IA, sans avoir recours à une annotation humaine coûteuse en ressources. Il est disponible en open source sur GitHub.
Grâce aux données propres et prêtes à l'emploi de Granary, les développeurs peuvent prendre une longueur d'avance dans la création de modèles qui traitent les tâches de transcription et de traduction dans presque toutes les 24 langues officielles de l'Union européenne, ainsi qu'en russe et en ukrainien.
Pour les langues européennes sous-représentées dans les ensembles de données annotés par des humains, Granary fournit une ressource essentielle pour développer des technologies vocales plus inclusives qui reflètent mieux la diversité linguistique du continent, tout en utilisant moins de données d'entraînement.
L'équipe a démontré que, par rapport à d'autres ensembles de données populaires, il faut environ deux fois moins de données d'entraînement Granary pour atteindre un niveau de précision cible pour la reconnaissance vocale automatique (ASR) et la traduction vocale automatique (AST).
Exploiter NVIDIA NeMo pour accélérer la transcription
Les nouveaux modèles Canary et Parakeet offrent des exemples des types de modèles que les développeurs peuvent créer avec Granary, personnalisés en fonction de leurs applications cibles. Canary-1b-v2 est optimisé pour la précision dans les tâches complexes, tandis que parakeet-tdt-0.6b-v3 est conçu pour les tâches à haute vitesse et à faible latence.
En partageant la méthodologie qui sous-tend l'ensemble de données Granary et ces deux modèles, NVIDIA permet à la communauté mondiale des développeurs d'IA vocale d'adapter ce flux de travail de traitement des données à d'autres modèles ASR ou AST ou à d'autres langues, accélérant ainsi l'innovation en matière d'IA vocale.
Canary-1b-v2, disponible sous licence permissive, étend les langues prises en charge par la famille Canary de quatre à 25. Il offre une qualité de transcription et de traduction comparable à celle de modèles trois fois plus volumineux, tout en exécutant des inférences jusqu'à dix fois plus rapidement.
NVIDIA NeMo, une suite logicielle modulaire permettant de gérer le cycle de vie des agents IA, a accéléré le développement des modèles d'IA vocale. NeMo Curator, qui fait partie de la suite logicielle, a permis à l'équipe de filtrer les exemples synthétiques des données sources afin que seuls des échantillons de haute qualité soient utilisés pour l'entraînement des modèles. L'équipe a également exploité la boîte à outils NeMo Speech Data Processor pour des tâches telles que l'alignement des transcriptions avec les fichiers audio et la conversion des données dans les formats requis.
Parakeet-tdt-0.6b-v3 privilégie le débit élevé et est capable de transcrire des segments audio de 24 minutes en un seul passage d'inférence. Le modèle détecte automatiquement la langue audio d'entrée et transcrit sans étapes supplémentaires. Les modèles Canary et Parakeet fournissent tous deux une ponctuation, une capitalisation et des horodatages au niveau des mots précis dans leurs résultats.
Cette annonce confirme que NVIDIA est un acteur dominant dans le domaine de l'IA. Nvidia connaît une ascension fulgurante ces dernières années, et a dépassé Apple et Microsoft pour devenir lentreprise avec la plus grosse valorisation boursière au monde. En juin 2024, Nvidia a vu ses actions progresser de 3,5 %, atteignant 135,58 dollars lunité, faisant grimper sa capitalisation boursière à 3 335 milliards de dollars. Cette montée en puissance est principalement attribuée à la demande croissante pour les technologies dIA, un domaine où les processeurs avancés de Nvidia sont devenus incontournables.
Le chiffre d'affaires de Nvidia au troisième trimestre 2024 a grimpé de 94 % en glissement annuel, atteignant 35,08 milliards de dollars, dépassant les attentes de 1,8 milliard de dollars, alimenté par la demande en IA et en puces pour centres de données. Les revenus des jeux ont augmenté de 14 %, atteignant 3,3 milliards de dollars, tandis que le segment de la robotique et de l'automobile a connu une augmentation de 30 %, gagnant 449 millions de dollars.
Source : NVIDIA
