Mozilla est la société sans but lucratif derrière le navigateur Firefox, mais pas seulement. L'un de leurs autres projets est DeepSpeech, un moteur de reconnaissance vocale : l'utilisateur parle, DeepSpeech écrit ce qu'il entend. Le projet a commencé chez Baidu et continue désormais chez Mozilla. Techniquement, il s'agit d'un réseau neuronal profond entraîné par TensorFlow et disponible à travers une API prévue pour être simple à utiliser (disponible en C, pour faciliter sa réutilisation dans d'autres environnements). Le modèle est entraîné uniquement sur des données en anglais, avec l'accent américain. L'avantage d'une telle solution est qu'elle peut être utilisée sur les périphériques de l'utilisateur : aucune donnée n'est transmise vers Mozilla, pour garantir un maximum de vie privée.
La version 0.6 de ce moteur de reconnaissance vocale est sortie récemment, avec comme améliorations principales une diminution de la latence (le temps nécessaire entre l'entrée d'un signal audio et la sortie du texte), tout en gardant une utilisation de mémoire raisonnable. En pratique, cela signifie que l'on peut récupérer des bribes de texte (encore incomplètes) sans craindre de pic de latence.
DeepSpeech est, comme bon nombre de logiciels équivalents, divisés en deux blocs : un modèle acoustique, qui récupère le son et le traduit en probabilités de son prononcés ; un décodeur, qui transforme ces probabilités en bouts de texte dans la langue de l'utilisateur. Une grande avancée par rapport aux versions précédentes est la possibilité de l'utiliser en flux tendu : le programme peut demander, toutes les secondes, les derniers mots prononcés. Pour ce faire, il a fallu travailler à tous les niveaux, notamment pour le modèle acoustique (les meilleurs modèles sont bidirectionnels, c'est-à-dire qu'ils doivent disposer d'une grande quantité de son avant de travailler). DeepSpeech 0.6 peut ainsi fournir une transcription 260 ms plus tôt que la version précédente.
En outre, Mozilla s'est lancé dans l'utilisation de TensorFlow Lite, prévue pour les périphériques embarqués (comme des téléphones), c'est-à-dire avec peu de ressources de calcul. Avec TensorFlow Lite, le paquet DeepSpeech passe de 98 Mo à à peine 3,7 Mo (en dehors du modèle linguistique, qui représente encore 47 Mo pour l'anglais, au lieu de 188 Mo précédemment). L'outil fonctionne surtout à l'aide d'une quantification après l'entraînement. Un autre avantage est l'amélioration de la performance sur les ordinateurs de bureau, bien plus puissants. En pratique, cela veut dire que DeepSpeech peut aller plus vite que du temps réel sur un matériel aussi limité qu'un Raspberry Pi 4. En chiffres, la version 0.6 utilise 22 fois moins de mémoire et démarre 500 fois plus vite.
L'API s'enrichit de fonctionnalités outre la transcription, pour récupérer des métadonnées sur le texte : l'instant auquel chaque caractère a été prononcé, une valeur de confiance pour la transcription de chaque phrase.
Avec la nouvelle version, l'entraînement est plus rapide : avec la migration vers TensorFlow 1.14, DeepSpeech peut utiliser l'implémentation des RNN proposée par cuDNN afin d'accélérer les calculs sur des cartes graphiques NVIDIA, d'un facteur deux pour l'entraînement.
Télécharger DeepSpeech 0.6 (avec des instructions pour Python, NodeJS, NuGet).
Voir le code source.
Source : Mozilla.
Mozilla annonce DeepSpeech 0.6,
Cette nouvelle version du moteur de reconnaissance vocale apporte des gains très significatifs de performances et principalement une diminution de la latence
Mozilla annonce DeepSpeech 0.6,
Cette nouvelle version du moteur de reconnaissance vocale apporte des gains très significatifs de performances et principalement une diminution de la latence
Le , par dourouc05
Une erreur dans cette actualité ? Signalez-nous-la !