IdentifiantMot de passe
Loading...
Mot de passe oublié ?Je m'inscris ! (gratuit)

Vous êtes nouveau sur Developpez.com ? Créez votre compte ou connectez-vous afin de pouvoir participer !

Vous devez avoir un compte Developpez.com et être connecté pour pouvoir participer aux discussions.

Vous n'avez pas encore de compte Developpez.com ? Créez-en un en quelques instants, c'est entièrement gratuit !

Si vous disposez déjà d'un compte et qu'il est bien activé, connectez-vous à l'aide du formulaire ci-dessous.

Identifiez-vous
Identifiant
Mot de passe
Mot de passe oublié ?
Créer un compte

L'inscription est gratuite et ne vous prendra que quelques instants !

Je m'inscris !

VALL-E 2 : la nouvelle technologie vocale d'IA de Microsoft atteint pour la première fois la parité avec l'humain, elle est si aboutie que par peur d'une utilisation abusive, elle ne sera pas publiée

Le , par Anthony

26PARTAGES

6  0 
Une équipe de recherche de Microsoft a présenté VALL-E 2, un système d'IA considérablement amélioré pour la synthèse vocale. Cependant, ils estiment que le monde n'est pas prêt pour sa sortie.

Microsoft Corporation est une multinationale américaine et une entreprise technologique dont le siège se trouve à Redmond, dans l'État de Washington. Ses produits logiciels les plus connus sont la gamme de systèmes d'exploitation Windows, la suite d'applications de productivité Microsoft 365, la plateforme de cloud computing Azure et le navigateur web Edge. Ses produits matériels phares sont les consoles de jeux vidéo Xbox et la gamme d'ordinateurs personnels à écran tactile Microsoft Surface. Microsoft a été classée n° 14 dans le classement Fortune 500 de 2022 sur les plus grandes entreprises des États-Unis en fonction de leur chiffre d'affaires total, et elle a été le plus grand fabricant de logiciels au monde en termes de chiffre d'affaires en 2022, selon Forbes Global 2000. Elle est considérée comme l'une des cinq grandes entreprises américaines de technologie de l'information, aux côtés d'Alphabet (société mère de Google), d'Amazon, d'Apple et de Meta (société mère de Facebook).

L'intelligence artificielle (IA), dans son sens le plus large, est l'intelligence dont font preuve les machines, en particulier les systèmes informatiques. Il s'agit d'un domaine de recherche en informatique qui développe et étudie des méthodes et des logiciels permettant aux machines de percevoir leur environnement et d'utiliser l'apprentissage et l'intelligence pour prendre des mesures qui maximisent leurs chances d'atteindre des objectifs définis. Ces machines peuvent être appelées "IA".


Selon l'équipe de Microsoft qui a présenté VALL-E 2, il s'agit du premier système à atteindre des performances de niveau humain pour générer de la parole à partir de texte, même pour des locuteurs inconnus ne disposant que d'un court échantillon de parole. Il peut créer de manière fiable des phrases complexes ou comportant de nombreuses répétitions.

Les logiciels disponibles dans le commerce, comme ElevenLabs, sont capables de cloner des voix, mais nécessitent un matériel de référence plus long. VALL-E 2 peut le faire en quelques secondes.

VALL-E 2 s'appuie sur son prédécesseur VALL-E datant de début 2023 et utilise des modèles de langage à codecs neuronaux pour générer la parole. Ces modèles apprennent à représenter la parole comme une séquence de codes, à l'instar de la compression audio numérique. Deux améliorations clés rendent cette percée possible.

VALL-E 2 apporte deux innovations majeures

Premièrement, VALL-E 2 utilise une nouvelle méthode "Repetition Aware Sampling" pour le processus de décodage, où les codes appris sont convertis en paroles audibles. La sélection des codes s'adapte dynamiquement à leur répétition dans la séquence de sortie précédente.

Au lieu de sélectionner au hasard les codes possibles comme VALL-E, VALL-E 2 passe intelligemment d'une méthode d'échantillonnage à l'autre : Le "Nucleus Sampling" ne prend en compte que les codes les plus probables, tandis que l'échantillonnage aléatoire traite toutes les possibilités de la même manière. Cette commutation adaptative améliore considérablement la stabilité du processus de décodage et évite les problèmes tels que les boucles infinies.


La deuxième innovation majeure consiste à modéliser les codes des codecs en groupes plutôt qu'individuellement. VALL-E 2 combine plusieurs codes consécutifs et les traite ensemble comme une sorte de "cadre". Ce regroupement de codes raccourcit la séquence d'entrée pour le modèle linguistique, ce qui accélère le traitement. En même temps, cette approche améliore la qualité de la parole générée en simplifiant le traitement des contextes très longs.


Lors d'expériences menées sur les ensembles de données LibriSpeech et VCTK, VALL-E 2 a largement dépassé les performances humaines en termes de robustesse, de naturel et de similarité de la parole générée. Des enregistrements de 3 secondes des locuteurs cibles ont suffi. Avec des échantillons plus longs de 10 secondes, le système a obtenu des résultats nettement meilleurs. Microsoft a publié tous les exemples sur ce site web.

Les chercheurs soulignent que la formation de VALL-E 2 ne nécessite que des paires d'enregistrements vocaux et leurs transcriptions sans codes temporels.

Pas de publication en raison du risque élevé d'utilisation abusive

Selon les chercheurs, VALL-E 2 pourrait être utilisé dans de nombreux domaines tels que l'éducation, le divertissement, l'accessibilité ou la traduction. Cependant, ils soulignent également les risques évidents d'utilisation abusive, comme l'imitation de voix sans le consentement de l'interlocuteur. Par conséquent, il s'agit pour l'instant d'un pur projet de recherche et Microsoft ne prévoit pas d'intégrer VALL-E 2 dans un produit ou d'en étendre l'accès au public.

Selon eux, il faudrait d'abord mettre au point un protocole permettant de s'assurer que la personne entendue a consenti à la synthèse, ainsi qu'une méthode de marquage numérique de ces contenus. Cette proposition s'inspire vraisemblablement de l'évolution de l'industrie des modèles d'images d'IA, où des filigranes comme le C2PA sont introduits. Cependant, ils ne résolvent pas le problème existant de la reconnaissance fiable du contenu généré par l'IA en tant que tel.

Sur la page du projet, Microsoft a présenté quelques détails concernant VALL-E 2 :

VALL-E 2 est la dernière avancée en matière de modèles de langage à codecs neuronaux qui marque une étape importante dans la synthèse de la parole à partir du texte (TTS), atteignant pour la première fois la parité avec l'humain.

S'appuyant sur les fondements posés par son prédécesseur, VALL-E, la nouvelle itération introduit deux améliorations significatives pour accroître ses performances : Le "Repetition Aware Sampling" affine le processus original d'échantillonnage du noyau en tenant compte de la répétition des jetons dans l'historique du décodage. Il permet non seulement de stabiliser le décodage, mais aussi de contourner le problème de boucle infinie rencontré dans VALL-E. La modélisation des codes groupés organise les codes des codecs en groupes afin de raccourcir efficacement la longueur de la séquence, ce qui permet non seulement d'augmenter la vitesse d'inférence, mais aussi de relever les défis de la modélisation des longues séquences.

Nos expériences, menées sur les ensembles de données LibriSpeech et VCTK, ont montré que VALL-E 2 surpasse les précédents systèmes TTS sans prise de vue en termes de robustesse de la parole, de naturel et de similarité avec le locuteur. C'est le premier système de ce type à atteindre la parité humaine sur ces critères de référence. De plus, VALL-E 2 synthétise systématiquement une parole de haute qualité, même pour des phrases qui sont traditionnellement difficiles à prononcer en raison de leur complexité ou de leur caractère répétitif.

Cette présentation est uniquement destinée à des fins de recherche et de démonstration. Actuellement, nous n'avons pas l'intention d'intégrer VALL-E 2 dans un produit ou d'en élargir l'accès au public.


VALL-E 2 atteint pour la première fois la parité humaine en matière de performance TTS sans prise de vue. Dans ce contexte, la parité humaine indique que les mesures de robustesse, de naturel et de similarité de VALL-E 2 surpassent celles des échantillons de vérité terrain ( WER( GroundTruth) - WER(VALL-E 2) >0, CMOS(VALL-E 2) - CMOS(GroundTruth) >0, et SMOS(VALL-E 2) - SMOS(GroundTruth)>0), ce qui signifie que VALL-E 2 peut générer une parole précise et naturelle dans la voix exacte du locuteur d'origine, comparable à la performance humaine. Il est important de noter que cette conclusion est tirée uniquement des résultats expérimentaux obtenus sur les ensembles de données LibriSpeech et VCTK.

VALL-E 2 est un projet de recherche. Actuellement, nous n'avons pas l'intention d'incorporer VALL-E 2 dans un produit ou d'en étendre l'accès au public. VALL-E 2 pourrait synthétiser la parole en conservant l'identité du locuteur et pourrait être utilisé pour l'apprentissage éducatif, le divertissement, le journalisme, le contenu auto-écrit, les fonctions d'accessibilité, les systèmes de réponse vocale interactifs, la traduction, les chatbots, et ainsi de suite.

Bien que VALL-E 2 puisse parler d'une voix semblable à celle du locuteur, la similitude et le naturel dépendent de la longueur et de la qualité de l'invite vocale, du bruit de fond, ainsi que d'autres facteurs. L'utilisation abusive du modèle peut comporter des risques potentiels, tels que l'usurpation de l'identification de la voix ou l'usurpation de l'identité d'un locuteur spécifique. Nous avons mené les expériences en supposant que l'utilisateur accepte d'être le locuteur cible de la synthèse vocale. Si le modèle est généralisé à des locuteurs inconnus dans le monde réel, il devrait inclure un protocole garantissant que le locuteur approuve l'utilisation de sa voix et d'un modèle de détection de la parole synthétisée. Si vous soupçonnez que VALL-E 2 est utilisé de manière abusive ou illégale, ou qu'il porte atteinte à vos droits ou à ceux d'autres personnes, vous pouvez le signaler.
Source : "VALL-E, A neural codec language model for speech synthesis" (Microsoft)

Et vous ?

Quel est votre avis sur le sujet ?
Que pensez-vous des performances de VALL-E 2 par rapport aux autres technologies de synthèse vocale ?

Voir aussi :

VALL-E : l'IA de synthèse vocale de Microsoft peut imiter n'importe quelle voix avec seulement un échantillon de trois secondes, y compris les émotions et le ton d'un orateur

BASE TTS, le plus grand modèle d'IA pour la synthèse vocale montre des capacités émergentes, conçu par les chercheurs d'Amazon, entraîné sur 100 000 heures de données vocales du domaine public

Meta déclare que son nouveau modèle d'IA de synthèse vocale est beaucoup trop dangereux pour être rendu public, il pourrait être utilisé pour perfectionner les deepfakes ou dans des escroqueries

Une erreur dans cette actualité ? Signalez-nous-la !

Avatar de PO
Membre à l'essai https://www.developpez.com
Le 04/09/2024 à 21:19
Citation Envoyé par Stéphane le calme Voir le message
Quels compromis seriez-vous prêt à accepter pour permettre l’innovation en IA tout en protégeant les droits des auteurs ?
Aucun, pourquoi un générateur de médiocrité (nivelage de tout le contenu) pourrait voler le travail des producteurs de valeur pour que OpenAI puisse "gagner de l'argent" en empêchant le dit producteur de valeur d'en gagner ? La réponse à votre question est dans la question en fait, il suffit de remplacer "innovation" par ce qu'est réellement un tel moteur conversationnel qui répond tout et n'importe quoi et de se rappeler le sens de "droit" et de "auteur"

Citation Envoyé par Stéphane le calme Voir le message
Pensez-vous que les entreprises technologiques devraient payer une redevance pour utiliser des contenus protégés par le droit d’auteur ? Si oui, comment cette redevance devrait-elle être calculée ?
Sur la base d'une négociation avec chaque auteur. s'ils ont besoin des ces données il doivent la respecter et donc respecter ceux qui la produise.

Citation Envoyé par Stéphane le calme Voir le message
Comment les créateurs de contenu peuvent-ils collaborer avec les entreprises d’IA pour garantir une utilisation éthique de leurs œuvres ?
C'est leur droit, c'est aux entreprises d'IA de faire les efforts nécessaires.

Citation Envoyé par Stéphane le calme Voir le message
L’utilisation de matériaux protégés par le droit d’auteur sans autorisation pourrait-elle nuire à la diversité et à la qualité des contenus disponibles en ligne ?
C'est déjà le cas, il suffit d'interroger ChatGPT ou Mistral ou autre sur n'importe quel sujet que l'on connait bien pour constater le massacre qui est fait de l'information, vaguement reformulées, avec très souvent des hallucinations ubuesques. En enseignement c'est terrible aujourd'hui, on doit passer 4h sur un sujet qui en prenait 1 avant pour faire désapprendre aux étudiants des trucs faux qui les empêchent de comprendre la notion.

Citation Envoyé par Stéphane le calme Voir le message
Quelles mesures législatives pourraient être mises en place pour équilibrer les besoins des développeurs d’IA et les droits des créateurs ?
Mais pourquoi équilibrer ? les entreprises d'IA n'ont rien à imposer. Si tel était le cas ce serait la fin de tout. Les auteurs n'auraient plus de revenus donc ne produiraient plus et il ne resterait que la soupe mal interprétées par ces "IA" sur la base de l'existant, grande victoire pour les entreprises d'IA qui deviendraient riche pendant un certain temps, une catastrophe pour l'humanité qui deviendrait comme les gros bonhommes dans Wall-e.

Citation Envoyé par Stéphane le calme Voir le message
Pensez-vous que l’accès libre aux informations et aux œuvres culturelles est essentiel pour le progrès technologique, ou cela devrait-il être strictement réglementé ?
si le progrés technologique n'apporte qu'une baisse de qualité et une perte de travail dans une société où on est de plus en plus nombreux il est évident que la réglementation doit empêcher la désignation de "progrés" ce qui n'est qu'un simple moteur conversationnel qui répond coute que coute même quand il ne sait pas. La Justice doit par ailleurs vivement condamner les atteintes au droit d'auteur, sinon ça veut dire que les grosses boites sont plus fortes que l’état de droit...gros soucis.

Citation Envoyé par Stéphane le calme Voir le message
Comment les utilisateurs finaux des technologies d’IA peuvent-ils influencer les pratiques des entreprises en matière de respect des droits d’auteur ?
Quand ils se rendront compte que ça ne leur apporte rien à part le "plaisir" de participer au truc fun du moment, quand ils se lasseront des images toutes identiques, quand ils se lasseront des contenus plats au goût de réchauffé, ils se mordront les doigts et se retourneront vers les gens qui produisent du contenu qui les élève ou les fait rêver.
8  0 
Avatar de totozor
Membre expert https://www.developpez.com
Le 05/09/2024 à 9:55
Citation Envoyé par Stéphane le calme Voir le message
Controverse autour du droit d'auteur : OpenAI assure ne pas pouvoir gagner de l'argent sans utiliser gratuitement du matériel protégé
Que se passe-t-il quand un entreprise a un business model qui n'est pas viable?
Elle vire son CEO
Elle met la clé sous la porte
Elle est rachetée
Elle peut aussi sortir de la loi mais à ses risques et péril
etc

C'est quand même incroyable que des entreprises hégémoniques se permettent ce genre de discours et qu'en plus elles fasse du quasi-esclavage en parallèle de ça.
Vous êtes dans la une bulle financière, technique et technologique incroyable et vous ne pouvez pas respecter la loi? Il y a une chose qui cloche dans votre gestion!
6  0 
Avatar de totozor
Membre expert https://www.developpez.com
Le 11/07/2024 à 7:13
Les travailleurs africains à l'origine de la révolution de l'IA : une réalité de conditions éprouvantes et [...] pour environ un dollar de l'heure
Pendant que les société d'IA lèvent des millions de dollar d'investissement.
5  0 
Avatar de Gluups
Membre émérite https://www.developpez.com
Le 11/07/2024 à 11:20
Citation Envoyé par totozor Voir le message
Les travailleurs africains à l'origine de la révolution de l'IA : une réalité de conditions éprouvantes et [...] pour environ un dollar de l'heure
Pendant que les société d'IA lèvent des millions de dollar d'investissement.
Si je lis bien, l'émergence de l'IA est basée sur l'esclavage.
4  0 
Avatar de OuftiBoy
Membre confirmé https://www.developpez.com
Le 05/09/2024 à 15:52
Moi si je dis, il faut bien que cambriole 25 maisons par ans, sinon je ne sais pas partir en vacances, je suis certains que ça finira mal pour moi. Mais lui, le Altman, la nouvelle coqueluche du moment, il peut se permettre de dire qu'il ne peut gagner des millions qu'en volant le travail des autres, et ça passe crème.
4  0 
Avatar de Jules34
Membre émérite https://www.developpez.com
Le 05/09/2024 à 9:15
"Mais Monsieur comment voulez que je vende des voitures si je les voles pas au préalable !"
3  0 
Avatar de Gluups
Membre émérite https://www.developpez.com
Le 09/07/2024 à 12:24
Citation Envoyé par Anthony Voir le message
VALL-E 2 : la nouvelle technologie vocale d'IA de Microsoft atteint pour la première fois la parité avec l'humain, elle est si aboutie que par peur d'une utilisation abusive, elle ne sera pas encore publiée
Alors que l'intelligence artificielle, on peut créer des virus avec, mais ça ne pose pas de problème.
C'est quoi la différence ?
Les remarques émises au sujet de l'intelligence artificielle ont fini par être entendues, ou la synthèse vocale est tellement mieux aboutie ? Ou retarder sa parution aide à promouvoir cette idée ?

Il était question d'un moratoire sur l'IA, je n'ai pas bien suivi, ça ...
2  0 
Avatar de Gluups
Membre émérite https://www.developpez.com
Le 09/07/2024 à 12:27
Citation Envoyé par VBurel Voir le message
Soit plus de 50 milliards investis dans les startup pour seconde trimestre 2024 !?

Et pendant ce temps, l'Europe a investi combien dans les IT ? juste par curiosité :-)

au moins 1 milliard depuis le début de l'année, rassurez nous ! ?
Dans quel but, exactement ?
Un projet va fonctionner mieux parce qu'il est financé par l'Europe ?
2  0 
Avatar de totozor
Membre expert https://www.developpez.com
Le 15/07/2024 à 8:43
Citation Envoyé par walfrat Voir le message
A titre de comparaison : https://www.combien-coute.net/cout-de-la-vie/kenya/
Je me suis dit que le niveau de vie était pas forcément le même et j'ai, vite fait, vérifié à quel point, c'est sur que c'est pas pareil qu'en France, en revanche quand on compare le salaire moyen avec le cout de la vie, ça a bien l'air misérable de vivre au Kenya.
Le taux horaire net du smic est de 9,23 € ce qui donnerait un équivalent à 3.97€ si on prend en compte les 43%.
Ce qui est toujours 4 fois au dessus du salaire desdites personnes.
Et n'est il pas aussi - un peu - la responsabilité des grands de ce monde de tirer le monde vers le haut plutôt que d'entretenir la main d'œuvre gratuite (à ce niveau là on peut parler de ça) dans sa misère.

Mais je suis probablement un idéaliste qui rêve de vivre chez les bisounours.
2  0 
Avatar de VBurel
Membre averti https://www.developpez.com
Le 09/07/2024 à 15:52
Citation Envoyé par Gluups Voir le message
Dans quel but, exactement ?
Un projet va fonctionner mieux parce qu'il est financé par l'Europe ?
Quel projet ? :-)
1  0