IdentifiantMot de passe
Loading...
Mot de passe oublié ?Je m'inscris ! (gratuit)

Vous êtes nouveau sur Developpez.com ? Créez votre compte ou connectez-vous afin de pouvoir participer !

Vous devez avoir un compte Developpez.com et être connecté pour pouvoir participer aux discussions.

Vous n'avez pas encore de compte Developpez.com ? Créez-en un en quelques instants, c'est entièrement gratuit !

Si vous disposez déjà d'un compte et qu'il est bien activé, connectez-vous à l'aide du formulaire ci-dessous.

Identifiez-vous
Identifiant
Mot de passe
Mot de passe oublié ?
Créer un compte

L'inscription est gratuite et ne vous prendra que quelques instants !

Je m'inscris !

VALL-E 2 : la nouvelle technologie vocale d'IA de Microsoft atteint pour la première fois la parité avec l'humain, elle est si aboutie que par peur d'une utilisation abusive, elle ne sera pas publiée

Le , par Anthony

26PARTAGES

6  0 
Une équipe de recherche de Microsoft a présenté VALL-E 2, un système d'IA considérablement amélioré pour la synthèse vocale. Cependant, ils estiment que le monde n'est pas prêt pour sa sortie.

Microsoft Corporation est une multinationale américaine et une entreprise technologique dont le siège se trouve à Redmond, dans l'État de Washington. Ses produits logiciels les plus connus sont la gamme de systèmes d'exploitation Windows, la suite d'applications de productivité Microsoft 365, la plateforme de cloud computing Azure et le navigateur web Edge. Ses produits matériels phares sont les consoles de jeux vidéo Xbox et la gamme d'ordinateurs personnels à écran tactile Microsoft Surface. Microsoft a été classée n° 14 dans le classement Fortune 500 de 2022 sur les plus grandes entreprises des États-Unis en fonction de leur chiffre d'affaires total, et elle a été le plus grand fabricant de logiciels au monde en termes de chiffre d'affaires en 2022, selon Forbes Global 2000. Elle est considérée comme l'une des cinq grandes entreprises américaines de technologie de l'information, aux côtés d'Alphabet (société mère de Google), d'Amazon, d'Apple et de Meta (société mère de Facebook).

L'intelligence artificielle (IA), dans son sens le plus large, est l'intelligence dont font preuve les machines, en particulier les systèmes informatiques. Il s'agit d'un domaine de recherche en informatique qui développe et étudie des méthodes et des logiciels permettant aux machines de percevoir leur environnement et d'utiliser l'apprentissage et l'intelligence pour prendre des mesures qui maximisent leurs chances d'atteindre des objectifs définis. Ces machines peuvent être appelées "IA".


Selon l'équipe de Microsoft qui a présenté VALL-E 2, il s'agit du premier système à atteindre des performances de niveau humain pour générer de la parole à partir de texte, même pour des locuteurs inconnus ne disposant que d'un court échantillon de parole. Il peut créer de manière fiable des phrases complexes ou comportant de nombreuses répétitions.

Les logiciels disponibles dans le commerce, comme ElevenLabs, sont capables de cloner des voix, mais nécessitent un matériel de référence plus long. VALL-E 2 peut le faire en quelques secondes.

VALL-E 2 s'appuie sur son prédécesseur VALL-E datant de début 2023 et utilise des modèles de langage à codecs neuronaux pour générer la parole. Ces modèles apprennent à représenter la parole comme une séquence de codes, à l'instar de la compression audio numérique. Deux améliorations clés rendent cette percée possible.

VALL-E 2 apporte deux innovations majeures

Premièrement, VALL-E 2 utilise une nouvelle méthode "Repetition Aware Sampling" pour le processus de décodage, où les codes appris sont convertis en paroles audibles. La sélection des codes s'adapte dynamiquement à leur répétition dans la séquence de sortie précédente.

Au lieu de sélectionner au hasard les codes possibles comme VALL-E, VALL-E 2 passe intelligemment d'une méthode d'échantillonnage à l'autre : Le "Nucleus Sampling" ne prend en compte que les codes les plus probables, tandis que l'échantillonnage aléatoire traite toutes les possibilités de la même manière. Cette commutation adaptative améliore considérablement la stabilité du processus de décodage et évite les problèmes tels que les boucles infinies.


La deuxième innovation majeure consiste à modéliser les codes des codecs en groupes plutôt qu'individuellement. VALL-E 2 combine plusieurs codes consécutifs et les traite ensemble comme une sorte de "cadre". Ce regroupement de codes raccourcit la séquence d'entrée pour le modèle linguistique, ce qui accélère le traitement. En même temps, cette approche améliore la qualité de la parole générée en simplifiant le traitement des contextes très longs.


Lors d'expériences menées sur les ensembles de données LibriSpeech et VCTK, VALL-E 2 a largement dépassé les performances humaines en termes de robustesse, de naturel et de similarité de la parole générée. Des enregistrements de 3 secondes des locuteurs cibles ont suffi. Avec des échantillons plus longs de 10 secondes, le système a obtenu des résultats nettement meilleurs. Microsoft a publié tous les exemples sur ce site web.

Les chercheurs soulignent que la formation de VALL-E 2 ne nécessite que des paires d'enregistrements vocaux et leurs transcriptions sans codes temporels.

Pas de publication en raison du risque élevé d'utilisation abusive

Selon les chercheurs, VALL-E 2 pourrait être utilisé dans de nombreux domaines tels que l'éducation, le divertissement, l'accessibilité ou la traduction. Cependant, ils soulignent également les risques évidents d'utilisation abusive, comme l'imitation de voix sans le consentement de l'interlocuteur. Par conséquent, il s'agit pour l'instant d'un pur projet de recherche et Microsoft ne prévoit pas d'intégrer VALL-E 2 dans un produit ou d'en étendre l'accès au public.

Selon eux, il faudrait d'abord mettre au point un protocole permettant de s'assurer que la personne entendue a consenti à la synthèse, ainsi qu'une méthode de marquage numérique de ces contenus. Cette proposition s'inspire vraisemblablement de l'évolution de l'industrie des modèles d'images d'IA, où des filigranes comme le C2PA sont introduits. Cependant, ils ne résolvent pas le problème existant de la reconnaissance fiable du contenu généré par l'IA en tant que tel.

Sur la page du projet, Microsoft a présenté quelques détails concernant VALL-E 2 :

VALL-E 2 est la dernière avancée en matière de modèles de langage à codecs neuronaux qui marque une étape importante dans la synthèse de la parole à partir du texte (TTS), atteignant pour la première fois la parité avec l'humain.

S'appuyant sur les fondements posés par son prédécesseur, VALL-E, la nouvelle itération introduit deux améliorations significatives pour accroître ses performances : Le "Repetition Aware Sampling" affine le processus original d'échantillonnage du noyau en tenant compte de la répétition des jetons dans l'historique du décodage. Il permet non seulement de stabiliser le décodage, mais aussi de contourner le problème de boucle infinie rencontré dans VALL-E. La modélisation des codes groupés organise les codes des codecs en groupes afin de raccourcir efficacement la longueur de la séquence, ce qui permet non seulement d'augmenter la vitesse d'inférence, mais aussi de relever les défis de la modélisation des longues séquences.

Nos expériences, menées sur les ensembles de données LibriSpeech et VCTK, ont montré que VALL-E 2 surpasse les précédents systèmes TTS sans prise de vue en termes de robustesse de la parole, de naturel et de similarité avec le locuteur. C'est le premier système de ce type à atteindre la parité humaine sur ces critères de référence. De plus, VALL-E 2 synthétise systématiquement une parole de haute qualité, même pour des phrases qui sont traditionnellement difficiles à prononcer en raison de leur complexité ou de leur caractère répétitif.

Cette présentation est uniquement destinée à des fins de recherche et de démonstration. Actuellement, nous n'avons pas l'intention d'intégrer VALL-E 2 dans un produit ou d'en élargir l'accès au public.


VALL-E 2 atteint pour la première fois la parité humaine en matière de performance TTS sans prise de vue. Dans ce contexte, la parité humaine indique que les mesures de robustesse, de naturel et de similarité de VALL-E 2 surpassent celles des échantillons de vérité terrain ( WER( GroundTruth) - WER(VALL-E 2) >0, CMOS(VALL-E 2) - CMOS(GroundTruth) >0, et SMOS(VALL-E 2) - SMOS(GroundTruth)>0), ce qui signifie que VALL-E 2 peut générer une parole précise et naturelle dans la voix exacte du locuteur d'origine, comparable à la performance humaine. Il est important de noter que cette conclusion est tirée uniquement des résultats expérimentaux obtenus sur les ensembles de données LibriSpeech et VCTK.

VALL-E 2 est un projet de recherche. Actuellement, nous n'avons pas l'intention d'incorporer VALL-E 2 dans un produit ou d'en étendre l'accès au public. VALL-E 2 pourrait synthétiser la parole en conservant l'identité du locuteur et pourrait être utilisé pour l'apprentissage éducatif, le divertissement, le journalisme, le contenu auto-écrit, les fonctions d'accessibilité, les systèmes de réponse vocale interactifs, la traduction, les chatbots, et ainsi de suite.

Bien que VALL-E 2 puisse parler d'une voix semblable à celle du locuteur, la similitude et le naturel dépendent de la longueur et de la qualité de l'invite vocale, du bruit de fond, ainsi que d'autres facteurs. L'utilisation abusive du modèle peut comporter des risques potentiels, tels que l'usurpation de l'identification de la voix ou l'usurpation de l'identité d'un locuteur spécifique. Nous avons mené les expériences en supposant que l'utilisateur accepte d'être le locuteur cible de la synthèse vocale. Si le modèle est généralisé à des locuteurs inconnus dans le monde réel, il devrait inclure un protocole garantissant que le locuteur approuve l'utilisation de sa voix et d'un modèle de détection de la parole synthétisée. Si vous soupçonnez que VALL-E 2 est utilisé de manière abusive ou illégale, ou qu'il porte atteinte à vos droits ou à ceux d'autres personnes, vous pouvez le signaler.
Source : "VALL-E, A neural codec language model for speech synthesis" (Microsoft)

Et vous ?

Quel est votre avis sur le sujet ?
Que pensez-vous des performances de VALL-E 2 par rapport aux autres technologies de synthèse vocale ?

Voir aussi :

VALL-E : l'IA de synthèse vocale de Microsoft peut imiter n'importe quelle voix avec seulement un échantillon de trois secondes, y compris les émotions et le ton d'un orateur

BASE TTS, le plus grand modèle d'IA pour la synthèse vocale montre des capacités émergentes, conçu par les chercheurs d'Amazon, entraîné sur 100 000 heures de données vocales du domaine public

Meta déclare que son nouveau modèle d'IA de synthèse vocale est beaucoup trop dangereux pour être rendu public, il pourrait être utilisé pour perfectionner les deepfakes ou dans des escroqueries

Une erreur dans cette actualité ? Signalez-nous-la !

Avatar de totozor
Membre expert https://www.developpez.com
Le 11/07/2024 à 7:13
Les travailleurs africains à l'origine de la révolution de l'IA : une réalité de conditions éprouvantes et [...] pour environ un dollar de l'heure
Pendant que les société d'IA lèvent des millions de dollar d'investissement.
4  0 
Avatar de Gluups
Membre émérite https://www.developpez.com
Le 11/07/2024 à 11:20
Citation Envoyé par totozor Voir le message
Les travailleurs africains à l'origine de la révolution de l'IA : une réalité de conditions éprouvantes et [...] pour environ un dollar de l'heure
Pendant que les société d'IA lèvent des millions de dollar d'investissement.
Si je lis bien, l'émergence de l'IA est basée sur l'esclavage.
3  0 
Avatar de Gluups
Membre émérite https://www.developpez.com
Le 09/07/2024 à 12:24
Citation Envoyé par Anthony Voir le message
VALL-E 2 : la nouvelle technologie vocale d'IA de Microsoft atteint pour la première fois la parité avec l'humain, elle est si aboutie que par peur d'une utilisation abusive, elle ne sera pas encore publiée
Alors que l'intelligence artificielle, on peut créer des virus avec, mais ça ne pose pas de problème.
C'est quoi la différence ?
Les remarques émises au sujet de l'intelligence artificielle ont fini par être entendues, ou la synthèse vocale est tellement mieux aboutie ? Ou retarder sa parution aide à promouvoir cette idée ?

Il était question d'un moratoire sur l'IA, je n'ai pas bien suivi, ça ...
2  0 
Avatar de Gluups
Membre émérite https://www.developpez.com
Le 09/07/2024 à 12:27
Citation Envoyé par VBurel Voir le message
Soit plus de 50 milliards investis dans les startup pour seconde trimestre 2024 !?

Et pendant ce temps, l'Europe a investi combien dans les IT ? juste par curiosité :-)

au moins 1 milliard depuis le début de l'année, rassurez nous ! ?
Dans quel but, exactement ?
Un projet va fonctionner mieux parce qu'il est financé par l'Europe ?
2  0 
Avatar de VBurel
Membre averti https://www.developpez.com
Le 09/07/2024 à 15:52
Citation Envoyé par Gluups Voir le message
Dans quel but, exactement ?
Un projet va fonctionner mieux parce qu'il est financé par l'Europe ?
Quel projet ? :-)
1  0 
Avatar de Ryu2000
Membre extrêmement actif https://www.developpez.com
Le 09/07/2024 à 15:56
Sachez qu'il y a plein de startups Françaises qui se font racheter par des grosses entreprises US.
Donc il y a des bonnes startups dans les nations européennes.

Et dans les 27,1 milliards de dollars qui ont été investit dans les startups du secteur de l'IA aux États-Unis d’avril à juin, il y a probablement une partie non négligeable qui vient d'investisseurs basés dans des nations européennes.
1  0 
Avatar de Gluups
Membre émérite https://www.developpez.com
Le 10/07/2024 à 7:03
Citation Envoyé par VBurel Voir le message
Quel projet ? :-)
C'est encore mieux.
1  0 
Avatar de Jules34
Membre chevronné https://www.developpez.com
Le 10/07/2024 à 10:38
Citation Envoyé par VBurel Voir le message
Et pendant ce temps, l'Europe a investi combien dans les IT ? juste par curiosité :-)
C'est clair que l'Europe a un grand intérêt à investir dans des startup qui seront rachetés par des américains dès qu'elles deviendront viables.

Comme Silae, Drivy, EFront, People Doc ou Zenly le champion de la géolocalisation racheté par Snapchat !

D'une manière générale les fonds américains représentent environ 40 % des fonds investis dans les startup Française, qui n'ont donc de Français que le numéro au RCS...

Avant de jeter l'argent par les fenêtres il faut avoir un projet pour le pays et les Français. L'idéal serait d'avoir un projet qui serait un peu différent du projet actuel, à savoir faire payer la TVA et les impôts aux idiots de salariés et laisser toute les richesses partir du pays.

La "startup nation" de Macron quoi.
1  0 
Avatar de walfrat
Membre émérite https://www.developpez.com
Le 11/07/2024 à 12:43
A titre de comparaison : https://www.combien-coute.net/cout-de-la-vie/kenya/

En moyenne, le coût de la vie au Kenya en 2024 est 43% moins important qu'en France.

Le salaire mensuel moyen est de : 362€
1L d'essence coûte : 1.5€
Un déjeuner au restaurant : 3.6€
Le prix d'une place de cinéma est 5.8€
La location d'un appartement dans le centre-ville coûte 850€/mois
En moyenne, le prix pour se loger à l'hôtel au Kenya est 54% moins cher par rapport à la France
Le coût de la vie pour habiter (logement, abonnements...) au Kenya est en moyenne 51% moins cher par rapport à la France
Je me suis dit que le niveau de vie était pas forcément le même et j'ai, vite fait, vérifié à quel point, c'est sur que c'est pas pareil qu'en France, en revanche quand on compare le salaire moyen avec le cout de la vie, ça a bien l'air misérable de vivre au Kenya.
1  0 
Avatar de kain_tn
Expert éminent https://www.developpez.com
Le 12/07/2024 à 20:37
Citation Envoyé par Gluups Voir le message
Si je lis bien, l'émergence de l'IA est basée sur l'esclavage.
Oui. Et pas uniquement en Afrique: le passage sur la classification des données pour l'IA est dans la dernière partie.
1  0