
La version 0.6 de ce moteur de reconnaissance vocale est sortie récemment, avec comme améliorations principales une diminution de la latence (le temps nécessaire entre l'entrée d'un signal audio et la sortie du texte), tout en gardant une utilisation de mémoire raisonnable. En pratique, cela signifie que l'on peut récupérer des bribes de texte (encore incomplètes) sans craindre de pic de latence.
DeepSpeech est, comme bon nombre de logiciels équivalents, divisés en deux blocs : un modèle acoustique, qui récupère le son et le traduit en probabilités de son prononcés ; un décodeur, qui transforme ces probabilités en bouts de texte dans la langue de l'utilisateur. Une grande avancée par rapport aux versions précédentes est la possibilité de l'utiliser en flux tendu : le programme peut demander, toutes les secondes, les derniers mots prononcés. Pour ce faire, il a fallu travailler à tous les niveaux, notamment pour le modèle acoustique (les meilleurs modèles sont bidirectionnels, c'est-à-dire qu'ils doivent disposer d'une grande quantité de son avant de travailler). DeepSpeech 0.6 peut ainsi fournir une transcription 260 ms plus tôt que la version précédente.

En outre, Mozilla s'est lancé dans l'utilisation de TensorFlow Lite, prévue pour les périphériques embarqués (comme des téléphones), c'est-à-dire avec peu de ressources de calcul. Avec TensorFlow Lite, le paquet DeepSpeech passe de 98 Mo à à peine 3,7 Mo (en dehors du modèle linguistique, qui représente encore 47 Mo pour l'anglais, au lieu de 188 Mo précédemment). L'outil fonctionne surtout à l'aide d'une quantification après l'entraînement. Un autre avantage est l'amélioration de la performance sur les ordinateurs de bureau, bien plus puissants. En pratique, cela veut dire que DeepSpeech peut aller plus vite que du temps réel sur un matériel aussi limité qu'un Raspberry Pi 4. En chiffres, la version 0.6 utilise 22 fois moins de mémoire et démarre 500 fois plus vite.

L'API s'enrichit de fonctionnalités outre la transcription, pour récupérer des métadonnées sur le texte : l'instant auquel chaque caractère a été prononcé, une valeur de confiance pour la transcription de chaque phrase.
Avec la nouvelle version, l'entraînement est plus rapide : avec la migration vers TensorFlow 1.14, DeepSpeech peut utiliser l'implémentation des RNN proposée par cuDNN afin d'accélérer les calculs sur des cartes graphiques NVIDIA, d'un facteur deux pour l'entraînement.


Source : Mozilla.
Vous avez lu gratuitement 3 articles depuis plus d'un an.
Soutenez le club developpez.com en souscrivant un abonnement pour que nous puissions continuer à vous proposer des publications.
Soutenez le club developpez.com en souscrivant un abonnement pour que nous puissions continuer à vous proposer des publications.