IdentifiantMot de passe
Loading...
Mot de passe oublié ?Je m'inscris ! (gratuit)

Vous êtes nouveau sur Developpez.com ? Créez votre compte ou connectez-vous afin de pouvoir participer !

Vous devez avoir un compte Developpez.com et être connecté pour pouvoir participer aux discussions.

Vous n'avez pas encore de compte Developpez.com ? Créez-en un en quelques instants, c'est entièrement gratuit !

Si vous disposez déjà d'un compte et qu'il est bien activé, connectez-vous à l'aide du formulaire ci-dessous.

Identifiez-vous
Identifiant
Mot de passe
Mot de passe oublié ?
Créer un compte

L'inscription est gratuite et ne vous prendra que quelques instants !

Je m'inscris !

VALL-E : l'IA de synthèse vocale de Microsoft peut imiter n'importe quelle voix avec seulement un échantillon de trois secondes
Y compris les émotions et le ton d'un orateur

Le , par Stéphane le calme

5PARTAGES

11  0 
Microsoft a récemment publié VALL-E, un nouveau modèle de langage pour la synthèse vocale TTS (text-to-speech). Après avoir été formé sur 60 000 heures de données vocales en anglais, il a démontré des capacités d'apprentissage en contexte dans des situations sans coup sûr. VALL-E vous permet de créer un discours personnalisé de haute qualité avec seulement un enregistrement de 3 secondes. Il permet des techniques TTS basées sur des invites qui sont instantanées et contextuelles. Il n'est pas nécessaire d'ajouter une ingénierie structurelle ou des caractéristiques acoustiques préconçues.

Il s'agit d'un progrès significatif dans la direction de systèmes TTS au son plus naturel. Microsoft a fourni quelques exemples du modèle utilisé qui montre les évolutions dans le développement de la technologie TTS.


Microsoft a récemment publié un outil d'intelligence artificielle connu sous le nom de VALL-E qui peut reproduire la voix des gens. L'outil a été formé sur 60 000 heures de données vocales en anglais et utilise des clips de 3 secondes de voix spécifiques pour générer du contenu. Contrairement à de nombreux outils d'intelligence artificielle, VALL-E peut reproduire les émotions et le ton d'un orateur, même lors de la création d'un enregistrement de mots que l'orateur d'origine n'a jamais prononcés. En clair, une fois qu’il a appris une voix spécifique, VALL-E peut synthétiser l’audio de cette personne disant n’importe quoi et le faire d’une manière qui tente de préserver le ton émotionnel de l’orateur.

En plus de préserver le timbre vocal et le ton émotionnel d’un locuteur, VALL-E peut également imiter « l’environnement acoustique » de l’échantillon audio. Par exemple, si l’échantillon provient d’un appel téléphonique, la sortie audio ressemblera également à un appel téléphonique.

Un article de l'Université Cornell a utilisé VALL-E pour synthétiser plusieurs voix. Quelques exemples de travaux sont disponibles sur GitHub.

Les échantillons de voix partagés par Microsoft varient en qualité. Alors que certains d'entre eux semblent naturels, d'autres sont clairement générés par des machines et semblent robotiques. Bien sûr, l'IA a tendance à s'améliorer avec le temps, donc à l'avenir, les enregistrements générés seront probablement plus convaincants. De plus, VALL-E n'utilise que des enregistrements de 3 secondes comme invite. Si la technologie était utilisée avec un ensemble d'échantillons plus grand, elle pourrait sans aucun doute créer des échantillons plus réalistes.

Ses créateurs pensent que VALL-E pourrait être utilisé pour des applications de synthèse vocale de haute qualité, l’édition de la parole où un enregistrement d’une personne pourrait être édité et modifié à partir d’une transcription textuelle.

VALL-E est un « modèle de langage de codec neuronal » qui s’appuie sur une technologie baptisée EnCodec, qui a été présentée par Meta en octobre 2022. Encodec est une méthode de compression audio alimentée par l'IA, qui serait capable de compresser le son 10 fois plus petit que le format MP3 à 64 kbps, sans perte de qualité. Selon Meta, cette technique pourrait améliorer considérablement la qualité sonore des discours sur les connexions à faible bande passante, comme les appels téléphoniques dans les zones où le service est irrégulier. Les chercheurs de Meta auraient obtenu des résultats de pointe en matière de compression audio vocale à faible débit (1,5 kbps à 12 kbps), évalués par des annotateurs humains qui ont comparé plusieurs méthodes de compression, dont le dernier codec Lyra-v2 de Google, avec la méthode non compressée et les ont classées en conséquence.

Contrairement à d’autres méthodes de synthèse vocale qui synthétisent généralement la parole en manipulant des formes d’onde, VALL-E génère des codes de codec audio discrets à partir d’invites textuelles et acoustiques. Il analyse essentiellement le son d’une personne, décompose ces informations en composants discrets (appelés « jetons ») grâce à EnCodec, et utilise des données d’entraînement pour faire correspondre ce qu’il « sait » sur la façon dont cette voix sonnerait si elle prononçait d’autres phrases en dehors de l'échantillon.

Citation Envoyé par Microsoft
Nous introduisons une approche de modélisation du langage pour la synthèse vocale (TTS). Plus précisément, nous entraînons un modèle de langage de codec neuronal (appelé VALL-E) à l'aide de codes discrets dérivés d'un modèle de codec audio neuronal prêt à l'emploi, et considérons TTS comme une tâche de modélisation de langage conditionnelle plutôt qu'une régression continue du signal comme dans les travaux précédents. Au cours de la phase de pré-formation, nous augmentons les données de formation TTS à 60 000 heures de conversation en anglais, ce qui est des centaines de fois plus important que les systèmes existants. VALL-E émerge des capacités d'apprentissage en contexte et peut être utilisé pour synthétiser un discours personnalisé de haute qualité avec seulement un enregistrement inscrit de 3 secondes d'un locuteur invisible comme invite acoustique. Les résultats des expériences montrent que VALL-E surpasse de manière significative le système TTS zéro-shot de pointe en termes de naturel de la parole et de similarité des locuteurs. De plus, nous constatons que VALL-E pourrait préserver l'émotion de l'orateur et l'environnement acoustique de l'invite acoustique en synthèse.

Présentation du modèle

Déjà des préoccupations éthiques

Pour le moment, VALL-E n'est généralement pas disponible, ce qui peut être une bonne chose car les répliques de la voix des personnes générées par l'IA pourraient être utilisées de manière dangereuse par des acteurs malveillants et d'autres personnes ayant des intentions malveillantes :

« Étant donné que VALL-E pourrait synthétiser la parole qui maintient l’identité du locuteur, il peut comporter des risques potentiels d’utilisation abusive du modèle, tels que l’usurpation d’identification vocale ou l’usurpation d’identité d’un locuteur spécifique. Pour atténuer ces risques, il est possible de construire un modèle de détection pour discriminer si un clip audio a été synthétisé par VALL-E. Nous mettrons également en pratique les principes de Microsoft AI lors du développement ultérieur des modèles ».

Bien que VALL-E soit sans aucun doute impressionnant, il soulève plusieurs préoccupations éthiques. À mesure que l'intelligence artificielle deviendra plus puissante, les voix générées par VALL-E et les technologies similaires deviendront plus convaincantes. Cela ouvrirait la porte à des appels de spam réalistes reproduisant les voix de personnes réelles qu'une victime potentielle connaît.

Les politiciens et autres personnalités publiques pourraient également être usurpés. Avec la vitesse de propagation des médias sociaux et la polarité des discussions politiques, il est peu probable que beaucoup s'arrêtent pour demander si un enregistrement scandaleux est authentique, tant qu'il semble au moins quelque peu authentique.

Les problèmes de sécurité viennent également à l'esprit. Certaines banques ont une option visant à utiliser la voix comme mot de passe lorsqu'un propriétaire de compte appelle. Il existe des mesures en place pour détecter les enregistrements vocaux et nous pouvons supposer que la technologie pourrait détecter si une voix VALL-E était utilisée. Cela étant dit, il y a de quoi rendre mal à l'aise. Il y a de fortes chances que la course aux armements s'intensifie entre le contenu généré par l'IA et les logiciels de détection de l'IA.

Bien qu'il ne s'agisse pas d'un problème de sécurité, certains ont évoqué le fait que les acteurs faisant des doublages pourraient perdre du travail au profit de VALL-E et des technologies concurrentes. Bien qu'il soit malheureux de voir des gens perdre leur travail, difficile de voir comment contourner cela. Si VALL-E atteint un point où il peut remplacer les acteurs vocaux pour les livres audio ou d'autres contenus, les entreprises vont l'utiliser. C'est juste la réalité de la technologie qui progresse.

En fait, Apple a récemment annoncé une fonctionnalité qui utilise l'IA pour lire des livres audio. « De plus en plus d'amateurs de livres écoutent des livres audio, mais seule une fraction des livres est convertie en audio, laissant des millions de titres inédits », a déclaré Apple dans un article de blog. « De nombreux auteurs - en particulier les auteurs indépendants et ceux associés à de petits éditeurs - ne sont pas en mesure de créer des livres audio en raison du coût et de la complexité de la production. La narration numérique Apple Books rend la création de livres audio plus accessible à tous, vous aidant à répondre à la demande croissante. en mettant plus de livres à la disposition des auditeurs ».

La nouvelle fonctionnalité permettra aux auteurs auto-publiés d'élargir leur audience et leur donnera une autre source de revenus. Comme toujours, Apple prendra jusqu'à 30% de tous les achats effectués sur les applications disponibles sur son App Store.

Comme toute technologie, VALL-E sera utilisé pour le bien, le mal et tout le reste. Microsoft a une déclaration d'éthique sur l'utilisation de VALL-E, mais l'avenir de son utilisation est encore trouble. Le président de Microsoft, Brad Smith, a discuté de la réglementation de l'IA dans le passé. Nous devrons voir quelles mesures Microsoft met en place pour réglementer l'utilisation de VALL-E.

Démos de VALL-E sur GitHub

Sources : VALL-E, Apple

Et vous ?

Que pensez-vous de VALL-E ?
Comprenez-vous la raison pour laquelle Microsoft n'a pas encore donné la possibilité au public de tester cet outil ?
Quels dérives imaginez-vous avec cet outil ?
Les doubleurs sont-ils susceptibles d'être inquiétés par une telle technologie ? Dans quelle mesure ?

Une erreur dans cette actualité ? Signalez-nous-la !

Avatar de thamn
Membre averti https://www.developpez.com
Le 19/02/2023 à 21:59
Citation Envoyé par Erviewthink Voir le message
Si il n'est pas content il change de boulot, personne ne l'a obligé à faire ça.

Pas compliqué si ? C'est à cause des personnes comme ça qu'il y a du dumping social.

Si les gens refusaient ces boulots sous payés il n'y aurait pas ce problème.

Mais bon comme la majorité des gens n'ont pas ou peu de dignité...
Ah oui bien sur, pour changer de boulot suffit de traverser la rue comme disait l'autre.
Essaye de changer de job sans debaler ton joli diplome qui t'aurais couté un bras au US, et revient nous en causer apres.
13  0 
Avatar de babacool421
Nouveau membre du Club https://www.developpez.com
Le 10/02/2023 à 12:52
Citation Envoyé par Mat.M Voir le message
la méga différence entre Google et ChatGPT c'est que le premier est une entreprise vraiment commerciale qui gagne du cash.
ChatGPT je sais pas ce que c'est, est-ce un outil développé par un collectif d'universitaires ?
Comment ce truc 'est financé ?

Google est dirigé par des informaticiens, Serguei Brin en particulier, est un ingénieur/chercheur brillant qui développe et intervient sur les projets R&D encore aujourd'hui. Serguei est convaincu pour avoir eu la chance de participer à une conférence "intimiste" que l'émergence de l'IA forte est primordiale et une étape importante dans l'évolution de notre civilisation (voir pour sa survie). L'IA forte nous permettrait, selon lui, de faire un nouveau bon technologique et de résoudre plus rapidement des problématiques hors de portée de l'intelligence humaine à ce jour (amélioration importante de la durée de vie, maitrise de la fusion nucléaire ou des réactions matières/anti-matière, maitrise du voyage interstellaire (trou de vers, métrique d’Alcubierre,...),...
N'oublions pas qu'à tout moment un évènement stellaire pourrait détruire notre habitat (comète, sursaut gamma, trou noir errant) et même le réveil des trapps de sibérie pour rendre notre planète inhabitable. Cet évènement arrivera et nous ne pouvons prédire quand. Demain peut-être.

remarque pertinente..sans trop faire du H.S. j'espère que c'est possible pour nos "fleurons" hexagonaux comme Cap ou Atos quand on voit les déboires d'Atos...
Citez moi une innovation technologique impactante à l'échelle de l'humanité (même de l'Europe) développée de Cap ou Atos ? Pour avoir travaillé pour ces entreprises et d'autres ESN, ces sociétés détournent les dispositifs comme le CIR/CII pour améliorer leur marge au lieu de financer de vrais projets R&D et développer des nouvelles technologies. Et même les ratios de ces "faux" budgets R&D sont ridicules comparés aux investissements de Google ou Amazon.
En France, nous sommes très bons en recherche fondamentale ou en recherche appliquées de part notre réseau universitaire et d'école assez performant. Mais, les entreprises françaises qui profitent de ses travaux sont dirigés par des investisseurs, des ignorants en science, incapable de juger par eux même de la pertinence d'une thèse par rapport à une autre. Nous avons probablement entre 10 et 15 ans de retard sur la R&D sur le domaine de l'informatique, l'IA ou la robotique par rapport à Google et Amazon.
11  0 
Avatar de electroremy
Membre éprouvé https://www.developpez.com
Le 02/03/2023 à 9:28
Bonjour,

Le problème avec ChatGPT, ou plus généralement à notre époque, c'est qu'on a énormément d'informations à disposition MAIS il y a de bonnes et de fausses informations mélangées.
De plus, un certain nombre de bonnes informations sont parfois méconnues.

C'est vrai dans tous les domaines.

J'ai 42 ans, ingénieur généraliste, passionné de bricolage, j'en apprends encore tous les jours, et notamment des choses que "j'aurais dû savoir avant"

Quelques exemples :

J'ai fait moi-même mon chauffage central il y a 15 ans.
J'ai découvert il y a 2 ou 3 ans qu'un mitigeur thermostatique n'était pas compatible avec une chaudière à production d'eau chaude instantanée
Et qu'il fallait ajuster la température de l'eau chaude au minimum, de façon à ne se doucher qu'avec de l'eau chaude (qui est en fait tiède)
La chaudière (modèle à condensation) fonctionne mieux, avec un meilleur rendement, et il n'y a pas de risque sanitaire car il n'y a pas d'accumulation d'eau chaude, étant donné que la production d'eau chaude est instantanée. C'est uniquement quand de l'eau chaude stagne (cumulus) qu'il faut qu'elle soit suffisamment chaude pour éviter un risque sanitaire.
Cette information, beaucoup de gens, y compris "du métier", ne la connaissent pas ou pire disent qu'elle est fausse.

Autre sujet : le béton.
La meilleure façon de bien couler du béton c'est :
- de mettre la quantité d'eau minimum : quand sur le sac c'est écrit "2,7 à 3 litres d'eau" il faut mettre 2,7 litres d'eau pas plus
- d'ajouter du fluidifiant (produit spécifique)
- de vibrer le béton une fois coulé
Beaucoup de gens l'ignorent, et notamment mettent trop d'eau => le béton est fragile, il y a un risque de malfaçon importante voir un danger si la structure est porteuse...
Même en magasin de bricolage, j'ai vu des vendeurs conseiller de doser l'eau au pifomètre !
Même des "professionnels" ajoutent de l'eau dans la toupie pour travailler plus facilement
Ces gens sont incompétents, ce sont des escrocs qui mettent des vies en danger.

ChatGPT se base sur Internet.
Internet est démocratique.
Mais, comme l'a dit mon prof de physique en 1re année de prépa (cela m'avait choqué à l'époque) :
"Le problème avec la démocratie, c'est quand 10 personnes se trompent et 9 personnes ont juste, et bien on donne raison aux 10 personnes qui se trompent"
Les réseaux sociaux, en permettant à n'importe qui de publier très facilement n'importe quoi, ont amplifié le phénomène.
Avant les réseaux sociaux, créer un site demandait un minimum de travail, et pour avoir des visiteurs il fallait publier des contenus intéressants, ça faisait office de filtre (même si il pouvait y avoir pas mal de conneries quand même mais nettement moins qu'aujourd'hui )
D'autant que les algorithmes des réseaux sociaux sont conçus pour amplifier les contenus émotionnels négatifs.
ChatGPT va juste faire la moyenne de tout.
Certes pour quelqu'un qui n'y connais rien sur un sujet, ChatGPT va probablement apporter une réponse.
Mais par rapport aux experts de chaque domaine, ChatGPT est clairement en dessous.
L'IA aboutit donc à un nivellement par le bas

Ainsi le créationnisme en vient à être enseigné dans certains pays comme théorie aussi valable que la théorie de l'évolution
Et on voit, en 2023, des gens croire que la terre est plate.

Que dire de l'IA ? On devrait plutôt parler de connerie artificielle
11  0 
Avatar de
https://www.developpez.com
Le 30/01/2023 à 23:01
Si je resume, je dois travailler jusqu'a 64 ans mais je serais remplacé par une IA prochainement... Quelle belle époque !
Bon, faut donc que je trouve une méthode pour vivre des aides, tranquille, loin du stress...
11  1 
Avatar de electroremy
Membre éprouvé https://www.developpez.com
Le 02/02/2023 à 11:10
Que penser de toute cette agitation autour de "l'intelligence artificielle" ?

D'abord, sur le principe il n'y a rien de nouveau. Les réseaux de neurones, algorithmes génétiques, la logique floue, les systèmes experts existent depuis des décennies. Au début des années 2000, j'avais moi même utilisé un algorithme génétique qui donnait "presque miraculeusement" rapidement de bons résultats à un problème d'optimisation.

Aujourd'hui, nous avons juste à disposition :

- des ordinateurs beaucoup plus rapides avec beaucoup plus de mémoire

- beaucoup de données exploitables facilement et directement, grâce (ou à cause) de l'usage de l'informatique dans la vie quotidienne et professionnelle.

Les résultats sont impressionnants, notamment grâce à la façon dont ils sont présentés : langage "naturel", synthèse vocale de bonne qualité, avatars en 3D voire vidéos réalistes.

Il faut garder la tête froide : ces dispositifs ne "réfléchissent" et ne "comprennent" pas du tout. Ce sont des boites noires, qui arrivent à sortir rapidement un résultat connu depuis les données dont ils disposent.

Ils sont similaires à une grande encyclopédie : une étagère complète de livres épais qui "connaissent" toutes les définitions, toutes les biographies, tous les faits historiques... pourtant personne ne va trouver une encyclopédie "intelligente".

Cette "intelligence artificielle" peut se planter de façon totalement imprévisible, comme le montrent les expérimentations sur la conduite autonome des voitures dans un milieu ouvert.

De plus, elle ne semblent pas pouvoir inventer des choses réellement nouvelles - attention, la grande quantité de données dont elles disposent peuvent laisser croire le contraire, car les capacités des datacenters actuels dépassent les capacités de mémorisations du commun des mortels. Si une IA vous donne l'impression d'avoir fait quelque chose de nouveau, c'est probablement parce qu'elle a des données sur quelque chose que vous ne connaissez pas, ce qui vous laisse croire que c'est nouveau.

En fait c'est ça la véritable leçon de l'histoire : aujourd'hui, l'humanité a accumulé tellement de connaissances sur tellement de sujets qu'il est impossible pour quelqu'un de tout savoir. Même si vous êtes touche-à-tout, que vous lisez beaucoup de livres et écoutez beaucoup de musique, à la fin de votre vie vous n'aurez vu, entendu et compris qu'une toute petite partie de ce qui a été dit ou écrit...
11  1 
Avatar de schlebe
Membre actif https://www.developpez.com
Le 08/06/2023 à 19:26
La moindre des choses à exiger des articles publiés par ChatGPT et qu'il les signe afin de permettre aux lecteurs de connaître la véritable source des articles.

Il faudrait également sanctionner les sociétés qui publient des articles générés par ChatGPT avec du contenus inventés ou mensongers.

Une amende de 2% du chiffre d'affaire par articles mensongers publiés et une amende de 2% du chiffre d'affaire par jour et par articles mensongers constatés et toujours publiés plus d'une semaine après le constat.

Dans moins d'un mois, on ne parlera plus de ChatGPT de la même façon et il faudra engager du personnel pour vérifier tout ce qu'il aura écrit.
12  2 
Avatar de steel-finger
Membre confirmé https://www.developpez.com
Le 20/02/2023 à 13:07
Citation Envoyé par Erviewthink Voir le message
Si il n'est pas content il change de boulot, personne ne l'a obligé à faire ça.

Pas compliqué si ? C'est à cause des personnes comme ça qu'il y a du dumping social.

Si les gens refusaient ces boulots sous payés il n'y aurait pas ce problème.

Mais bon comme la majorité des gens n'ont pas ou peu de dignité...
La vie ne fonctionne pas comme ça, il faut que tu sortes de ton cocon pour t'en rendre compte.
Malheureusement, il y a des personnes qui préfèrent nourrir leur enfant en prenant les boulots qui nuise à la dignité plutôt que de n'avoir aucune rentrée d'argent !
8  0 
Avatar de walfrat
Membre émérite https://www.developpez.com
Le 07/04/2023 à 9:55
"Hey chatGPT, voilà toutes les donneés confidentielles économiques de mon entreprises, fait moi le rapport financier stp, j'ai la flème".
8  0 
Avatar de Jon Shannow
Membre extrêmement actif https://www.developpez.com
Le 09/06/2023 à 14:59
Citation Envoyé par coolspot Voir le message
Macron si on peut dire c'est un Poutine avec 20 ans de moins. Il se prépare deja à vouloir bidouiller la constitution ou faire comme la presse commence à le dire une "Poutine/Medvedev" pour etre président à vie
Heu ! Tu as des infos la dessus ? Non seulement sur la préparation, mais aussi la faisabilité...
8  0 
Avatar de totozor
Membre expert https://www.developpez.com
Le 09/06/2023 à 15:48
Citation Envoyé par Ryu2000 Voir le message
C'est pas marrant d'être sans emploi.
C'est pas marrant d'être sans emploi dans un système capitaliste.
Que se passerait il si les gens n'avaient plus besoin de se salarier pour vivre?
La plupart travailleraient.
Par exemple que font les retraités qui ont la santé?
Il s'investissent dans les associations, ils gardent leurs petits enfants, ils investissent dans leur quartier, ils s'entreaident etc.
(Et ceux qui revaient d'être rentiers partent en voyage)

Pourquoi ceci n'est pas souhaitable?
Comment nos dirigeants s'assureraient d'avoir de la main d'oeuvre (au sens large)?
Bernard Arnault perdrait "de la valeur" (je ne dit pas qu'il n'en aurait plus) et Gérard l'éboueur, Géraldine l'aide soignante, Marcel le passionné d'astronomie en gagneraient

Oui le monde que je décrit est peut être idéaliste mais il y a des faisceau de pistes qui suggèrent que c'est viable
Et ce n'est qu'un monde à envisager parmi d'autres
Celui dans lequel on vit ne semble pas viable pour la majorité.
9  1