
Il s'agit d'un progrès significatif dans la direction de systèmes TTS au son plus naturel. Microsoft a fourni quelques exemples du modèle utilisé qui montre les évolutions dans le développement de la technologie TTS.
Microsoft a récemment publié un outil d'intelligence artificielle connu sous le nom de VALL-E qui peut reproduire la voix des gens. L'outil a été formé sur 60 000 heures de données vocales en anglais et utilise des clips de 3 secondes de voix spécifiques pour générer du contenu. Contrairement à de nombreux outils d'intelligence artificielle, VALL-E peut reproduire les émotions et le ton d'un orateur, même lors de la création d'un enregistrement de mots que l'orateur d'origine n'a jamais prononcés. En clair, une fois qu’il a appris une voix spécifique, VALL-E peut synthétiser l’audio de cette personne disant n’importe quoi et le faire d’une manière qui tente de préserver le ton émotionnel de l’orateur.
En plus de préserver le timbre vocal et le ton émotionnel d’un locuteur, VALL-E peut également imiter « l’environnement acoustique » de l’échantillon audio. Par exemple, si l’échantillon provient d’un appel téléphonique, la sortie audio ressemblera également à un appel téléphonique.
Un article de l'Université Cornell a utilisé VALL-E pour synthétiser plusieurs voix. Quelques exemples de travaux sont disponibles sur GitHub.
Les échantillons de voix partagés par Microsoft varient en qualité. Alors que certains d'entre eux semblent naturels, d'autres sont clairement générés par des machines et semblent robotiques. Bien sûr, l'IA a tendance à s'améliorer avec le temps, donc à l'avenir, les enregistrements générés seront probablement plus convaincants. De plus, VALL-E n'utilise que des enregistrements de 3 secondes comme invite. Si la technologie était utilisée avec un ensemble d'échantillons plus grand, elle pourrait sans aucun doute créer des échantillons plus réalistes.
Ses créateurs pensent que VALL-E pourrait être utilisé pour des applications de synthèse vocale de haute qualité, l’édition de la parole où un enregistrement d’une personne pourrait être édité et modifié à partir d’une transcription textuelle.
VALL-E est un « modèle de langage de codec neuronal » qui s’appuie sur une technologie baptisée EnCodec, qui a été présentée par Meta en octobre 2022. Encodec est une méthode de compression audio alimentée par l'IA, qui serait capable de compresser le son 10 fois plus petit que le format MP3 à 64 kbps, sans perte de qualité. Selon Meta, cette technique pourrait améliorer considérablement la qualité sonore des discours sur les connexions à faible bande passante, comme les appels téléphoniques dans les zones où le service est irrégulier. Les chercheurs de Meta auraient obtenu des résultats de pointe en matière de compression audio vocale à faible débit (1,5 kbps à 12 kbps), évalués par des annotateurs humains qui ont comparé plusieurs méthodes de compression, dont le dernier codec Lyra-v2 de Google, avec la méthode non compressée et les ont classées en conséquence.
Contrairement à d’autres méthodes de synthèse vocale qui synthétisent généralement la parole en manipulant des formes d’onde, VALL-E génère des codes de codec audio discrets à partir d’invites textuelles et acoustiques. Il analyse essentiellement le son d’une personne, décompose ces informations en composants discrets (appelés « jetons ») grâce à EnCodec, et utilise des données d’entraînement pour faire correspondre ce qu’il « sait » sur la façon dont cette voix sonnerait si elle prononçait d’autres phrases en dehors de l'échantillon.

Présentation du modèle
Déjà des préoccupations éthiques
Pour le moment, VALL-E n'est généralement pas disponible, ce qui peut être une bonne chose car les répliques de la voix des personnes générées par l'IA pourraient être utilisées de manière dangereuse par des acteurs malveillants et d'autres personnes ayant des intentions malveillantes :
« Étant donné que VALL-E pourrait synthétiser la parole qui maintient l’identité du locuteur, il peut comporter des risques potentiels d’utilisation abusive du modèle, tels que l’usurpation d’identification vocale ou l’usurpation d’identité d’un locuteur spécifique. Pour atténuer ces risques, il est possible de construire un modèle de détection pour discriminer si un clip audio a été synthétisé par VALL-E. Nous mettrons également en pratique les principes de Microsoft AI lors du développement ultérieur des modèles ».
Bien que VALL-E soit sans aucun doute impressionnant, il soulève plusieurs préoccupations éthiques. À mesure que l'intelligence artificielle deviendra plus puissante, les voix générées par VALL-E et les technologies similaires deviendront plus convaincantes. Cela ouvrirait la porte à des appels de spam réalistes reproduisant les voix de personnes réelles qu'une victime potentielle connaît.
Les politiciens et autres personnalités publiques pourraient également être usurpés. Avec la vitesse de propagation des médias sociaux et la polarité des discussions politiques, il est peu probable que beaucoup s'arrêtent pour demander si un enregistrement scandaleux est authentique, tant...
La fin de cet article est réservée aux abonnés. Soutenez le Club Developpez.com en prenant un abonnement pour que nous puissions continuer à vous proposer des publications.