
WhisperFusion s'appuie sur les capacités de WhisperLive et WhisperSpeech en intégrant Mistral, un Grand Modèle de Langage (LLM), au-dessus du pipeline de conversion de la parole au texte en temps réel.
LLM et Whisper sont optimisés pour fonctionner efficacement en tant que moteurs TensorRT, maximisant ainsi les performances et les capacités de traitement en temps réel. WhiperSpeech est quant à lui optimisé avec torch.compile.
Caractéristiques
- Synthèse vocale en temps réel : Utilise OpenAI WhisperLive pour convertir le langage parlé en texte en temps réel.
- Intégration d'un grand modèle linguistique : Ajoute Mistral, un grand modèle de langage, pour améliorer la compréhension et le contexte du texte transcrit.
- Optimisation TensorRT : LLM et Whisper sont optimisés pour fonctionner en tant que moteurs TensorRT, garantissant un traitement de haute performance et de faible latence.
- torch.compile : WhisperSpeech utilise torch.compile pour accélérer l'inférence qui rend le code PyTorch plus rapide en compilant le code PyTorch dans des noyaux optimisés.
Démarrage
- Le conteneur TensorRT-LLM est pré-construit, whisper et phi sont convertis en moteurs TensorRT et le modèle WhisperSpeech est pré-téléchargé pour commencer à interagir rapidement avec WhisperFusion.
Code : Sélectionner tout docker run --gpus all --shm-size 64G -p 6006:6006 -p 8888:8888 -it ghcr.io/collabora/whisperfusion:latest
- Démarrer l'interface graphique Web
Code : Sélectionner tout 1
2cd examples/chatbot/html python -m http.server
Et vous ?

Voir aussi :



Vous avez lu gratuitement 1 articles depuis plus d'un an.
Soutenez le club developpez.com en souscrivant un abonnement pour que nous puissions continuer à vous proposer des publications.
Soutenez le club developpez.com en souscrivant un abonnement pour que nous puissions continuer à vous proposer des publications.