IdentifiantMot de passe
Loading...
Mot de passe oublié ?Je m'inscris ! (gratuit)

Vous êtes nouveau sur Developpez.com ? Créez votre compte ou connectez-vous afin de pouvoir participer !

Vous devez avoir un compte Developpez.com et être connecté pour pouvoir participer aux discussions.

Vous n'avez pas encore de compte Developpez.com ? Créez-en un en quelques instants, c'est entièrement gratuit !

Si vous disposez déjà d'un compte et qu'il est bien activé, connectez-vous à l'aide du formulaire ci-dessous.

Identifiez-vous
Identifiant
Mot de passe
Mot de passe oublié ?
Créer un compte

L'inscription est gratuite et ne vous prendra que quelques instants !

Je m'inscris !

Une vidéo générée par le modèle d'IA VASA-1 de Microsoft montrant la Joconde en train de rapper suscite de vives réactions de la part des téléspectateurs,
Qui craignent une utilisation abusive

Le , par Mathis Lucas

8PARTAGES

9  0 
Microsoft a récemment publié une démo de son modèle d'IA VASA-1 montrant la Joconde du célèbre peintre Léonard de Vinci en train de rapper. Le clip a suscité de vives réactions en ligne allant de l'humour à l'horreur. Microsoft a déclaré que la technologie pourrait être utilisée à des fins éducatives ou pour "améliorer l'accessibilité des personnes ayant des difficultés de communication", ou encore pour créer des compagnons virtuels pour les humains. Mais il est également facile de voir comment l'outil pourrait être détourné et utilisé pour usurper l'identité de personnes réelles. Pour l'instant, l'entreprise garde l'outil en interne en raison des risques qu'il présente.

Des chercheurs de Microsoft ont présenté la semaine dernière un nouveau modèle d'IA permettant de créer automatiquement une vidéo réaliste d'une personne en train de parler à partir d'une image fixe d'un visage et d'un clip audio avec la voix de la personne. Les vidéos, qui peuvent être réalisées à partir de visages photoréalistes, de dessins animés ou d'œuvres d'art, sont dotées d'une synchronisation labiale convaincante et de mouvement naturels du visage et de la tête. Dans une vidéo de démonstration, l'équipe a montré comment elle a animé la Joconde pour qu'elle chante un rap comique de l'actrice Anne Hathaway.

[tweet]<blockquote class="twitter-tweet"><p lang="en" dir="ltr">Microsoft just dropped VASA-1.<br><br>This AI can make single image sing and talk from audio reference expressively. Similar to EMO from Alibaba<br><br>10 wild examples:<br><br>1. Mona Lisa rapping Paparazzi <a href="https://t.co/LSGF3mMVnD">pic.twitter.com/LSGF3mMVnD</a></p>&mdash; Min Choi (@minchoi) <a href="https://twitter.com/minchoi/status/1780792793079632130?ref_src=twsrc%5Etfw">April 18, 2024</a></blockquote> <script async src="https://platform.twitter.com/widgets.js" charset="utf-8"></script>[/tweet]

Dans un autre clip de Microsoft, un avatar chante, et dans d'autres, générés à partir de photos réelles, des personnes parlent de sujets courants. Les vidéos ont rapidement gagné en popularité en ligne, suscitant des réactions mitigées. Certains internautes ont apprécié les clips. D'autres se sont montrés plus méfiants, voire dérangés. « C'est à la fois sauvage, bizarre et effrayant », a écrit l'un d'entre eux. « Un autre jour, une autre vidéo terrifiante sur l'IA », se lamente un autre. « Pourquoi cela doit-il exister ? Je ne vois pas ce qu'il y a de positif », a écrit un critique. Selon les critiques, l'outil comporte de nombreux risques.

« C'est vraiment flippant. Je n'ai même pas voulu finir de le regarder. C'est la partie la plus profonde de la vallée de l'étrange dont j'ai été témoin jusqu'à présent dans ma vie », lit-on dans les commentaires. Les chercheurs de Microsoft sont conscients des nombreux risques liés à leur nouveau modèle d'IA. Lors de l'annonce de VASA-1 la semaine dernière, les chercheurs avaient abordé les risques et avaient déclaré qu'ils n'avaient pas l'intention de publier le produit en ligne tant que "l'équipe n'est pas certaine que la technologie sera utilisée de manière responsable et conformément aux réglementations en vigueur".

« L'objectif n'est pas de créer un contenu destiné à induire en erreur ou à tromper. Toutefois, à l'instar d'autres techniques de génération de contenu, elle pourrait être utilisée à mauvais escient pour usurper l'identité d'un être humain. Nous sommes opposés à tout comportement visant à créer des contenus trompeurs ou nuisibles de personnes réelles, et nous sommes intéressés par l'application de notre technique pour faire progresser la détection des falsifications. Tout en reconnaissant la possibilité d'une utilisation abusive, il est impératif de reconnaître le potentiel positif substantiel de notre technique », explique l'équipe.

« Les avantages (comme l'amélioration de l'équité en matière d'éducation, l'amélioration de l'accessibilité pour les personnes ayant des difficultés de communication, l'offre d'une compagnie ou d'un soutien thérapeutique aux personnes dans le besoin, parmi beaucoup d'autres) soulignent l'importance de notre recherche et d'autres explorations connexes. Nous sommes déterminés à développer l'IA de manière responsable, dans le but de faire progresser le bien-être humain », ont écrit les chercheurs. Les inquiétudes des scientifiques de Microsoft sont également partagées par d'autres chercheurs de la communauté de l'IA.

À mesure que les outils permettant de créer des images, des vidéos et des sons convaincants générés par l'IA se multiplient, les experts craignent que leur utilisation abusive ne conduise à de nouvelles formes de désinformation. Certains craignent également que la technologie ne perturbe davantage les industries créatives, du cinéma à la publicité. Le refus de Microsoft de publier le modèle d'IA VASA-1 rappelle la manière dont OpenAI gère les inquiétudes suscitées par son modèle d'IA de génération de vidéo Sora. Jusque-là, l'entreprise n'a pas mis Sora à la disposition du grand public, évoquant des raisons de sécurité.

Le nouveau modèle d'IA de Microsoft a été entraîné sur de nombreuses vidéos de visages de personnes en train de parler, et il est conçu pour reconnaître les mouvements naturels du visage et de la tête, y compris "le mouvement des lèvres, l'expression (non labiale), le regard et le clignement des yeux, entre autres". Le résultat est une vidéo plus réaliste lorsque VASA-1 anime une photo fixe. D'autres cas d'utilisation sont également possibles. Ainsi, il est également possible de demander à l'outil d'IA de produire une vidéo dans laquelle le sujet regarde dans une certaine direction ou exprime une émotion spécifique.

En y regardant de plus près, on trouve encore des signes indiquant que les vidéos ont été générées par une machine, comme des clignements d'yeux peu fréquents et des mouvements de sourcils exagérés. Toutefois, Microsoft estime que son modèle surpasse de manière significative d'autres outils similaires et ouvre la voie à des engagements en temps réel avec des avatars réalistes qui émulent les comportements conversationnels humains. (L'outil s'est montré suffisamment convaincant pour déclencher un tollé sur la toile.)

Ce dernier développement de l'IA intervient alors que les gouvernements du monde entier s'efforcent de réglementer la technologie et de légiférer contre son utilisation abusive à des fins criminelles. Un exemple en est le deepfake à caractère pornographique, qui consiste à superposer le visage d'une personne sur une photo ou une vidéo explicite sans son consentement, un problème qui a même touché Taylor Swift au début de l'année. Les auteurs des deepfakes de Taylor Swift avaient utilisé le générateur d'image de Microsoft.

Et vous ?

Quel est votre avis sur le sujet ?
Que pensez-vous du nouvel outil d'IA VASA-1 de Microsoft ? A-t-il une utilité ?
Quels sont les préoccupations qu'il pose ? Doit-il être publié ?

Voir aussi

VASA-1, la nouvelle IA de Microsoft, peut créer un deepfake juste à partir d'une photo et d'une piste audio, et peut faire dire n'importe quoi à n'importe qui, mais n'est pas disponible, car trop dangereux

Sora : OpenAI lance un modèle d'IA qui serait capable de créer une vidéo avec des scènes réalistes et imaginatives à partir d'instructions textuelles, mais la durée est limitée à 60 secondes

Stability.ai présente Stable Video 3D, un outil d'IA générative pour le rendu de vidéos en 3D qui permet aux utilisateurs de générer une courte vidéo à partir d'une image ou d'un texte

Une erreur dans cette actualité ? Signalez-nous-la !

Avatar de KEKE93
Membre éclairé https://www.developpez.com
Le 23/04/2024 à 9:44
Cette oeuvre générée par IA va dans la continuité du mouvement Dada avec notamment l'oeuvre de Marcel Duchamp de 1919 où on voit la Joconde affublée d'une moustache avec le titre L.H.O.O.Q. ( Elle a chaud au cul ) .

https://fr.wikipedia.org/wiki/L.H.O.O.Q.
2  1