IdentifiantMot de passe
Loading...
Mot de passe oublié ?Je m'inscris ! (gratuit)

Vous êtes nouveau sur Developpez.com ? Créez votre compte ou connectez-vous afin de pouvoir participer !

Vous devez avoir un compte Developpez.com et être connecté pour pouvoir participer aux discussions.

Vous n'avez pas encore de compte Developpez.com ? Créez-en un en quelques instants, c'est entièrement gratuit !

Si vous disposez déjà d'un compte et qu'il est bien activé, connectez-vous à l'aide du formulaire ci-dessous.

Identifiez-vous
Identifiant
Mot de passe
Mot de passe oublié ?
Créer un compte

L'inscription est gratuite et ne vous prendra que quelques instants !

Je m'inscris !

De l'humour au critère de performance : le test «Will Smith mangeant des spaghettis» révèle les forces de l'IA Veo 3 de Google mais aussi ses limites
Les effets sonores montrent Smith «croquer» des spaghettis

Le , par Stéphane le calme

131PARTAGES

4  0 
L'épopée numérique de « Will Smith mangeant des spaghettis » incarne l'évolution fulgurante de l'intelligence artificielle dans la génération de vidéos. Ce mème, initialement perçu comme une curiosité grotesque, est devenu un symbole des avancées technologiques et des débats entourant l'IA.

Contexte

En mars 2023, un utilisateur de Reddit nommé "chaindrop" a partagé une vidéo générée par l'outil ModelScope, montrant une version déformée de Will Smith mangeant des spaghettis. Cette création, composée de segments de deux secondes assemblés, présentait des mouvements saccadés et des visuels dérangeants, suscitant à la fois fascination et malaise. Le clip est rapidement devenu viral, illustrant les limites de l'IA en matière de génération vidéo à l'époque.

Will Smith a souvent été remarqué pour son succès tout au long de sa carrière musicale, ainsi que son travail en tant qu'acteur à la télévision et au cinéma. Il a reçu de nombreuses récompenses et ses films ont rapporté plus de 9,5 milliards de dollars dans le monde, ce qui fait de lui l'une des stars les plus rentables d'Hollywood. Donc il n'est pas attendu dans ce genre de rubrique.

Pourtant, cette vidéo est devenue une sorte de mème ainsi qu'un benchmark : Il s'agit de voir si un nouveau générateur de vidéos peut représenter de manière réaliste l'acteur Will Smith en train d'engloutir un bol de nouilles.

Deux ans plus tard, lors de la conférence Google I/O 2025, la démonstration de Veo 3 a marqué un tournant. En recréant la scène de Will Smith mangeant des spaghettis avec un réalisme saisissant, intégrant dialogues et effets sonores, Google a montré les progrès réalisés depuis les débuts balbutiants de ModelScope. Cette évolution souligne la rapidité avec laquelle l'IA peut passer de résultats imparfaits à des rendus quasi indiscernables de la réalité

L'évolution technologique : de la caricature au réalisme

Google a lancé Veo 3, un nouveau modèle de synthèse vidéo par l'IA capable de faire ce qu'aucun grand générateur de vidéos par l'IA n'a pu faire jusqu'à présent : créer une piste audio synchronisée.

Comme Veo 2, cet outil d'IA est en concurrence avec le générateur vidéo Sora d'OpenAI, mais sa capacité à incorporer du son dans la vidéo qu'il crée constitue une distinction essentielle. L'entreprise précise que Veo 3 peut incorporer de l'audio, notamment des dialogues entre les personnages ainsi que des sons d'animaux. Si, de 2022 à 2024, nous avons assisté aux premières étapes de la génération de vidéos par l'IA, chaque vidéo était silencieuse et généralement de très courte durée. Désormais, vous pouvez entendre des voix, des dialogues et des effets sonores dans des clips vidéo haute définition de huit secondes.

Citation Envoyé par Google
Veo génère des vidéos de haute qualité à une résolution de 1080p qui peuvent dépasser une minute, dans une grande variété de styles cinématographiques et visuels. Grâce à une compréhension avancée du langage naturel et de la sémantique visuelle, il peut générer des vidéos qui représentent fidèlement la vision créative de l'utilisateur, en captant avec précision le ton d'une invite et en restituant les détails dans les invites plus longues.

Le modèle comprend également les termes cinématographiques tels que "timelapse" ou "plans aériens d'un paysage", offrant un niveau de contrôle créatif sans précédent. Et il crée des séquences cohérentes et homogènes, de sorte que les personnes, les animaux et les objets se déplacent de manière réaliste tout au long des plans.
« Veo 3 excelle dans les domaines du texte et de l'image, de la physique du monde réel et de la synchronisation labiale précise », a déclaré Eli Collins, vice-président produit de Google DeepMind. L'outil d'IA vidéo-audio est déjà disponible pour les abonnés américains à la nouvelle formule d'abonnement Ultra de Google, d'un montant de 249,99 dollars par mois, qui s'adresse aux passionnés d'IA. Veo 3 sera également disponible pour les utilisateurs de la plateforme d'entreprise Vertex AI de Google.


Le benchmark « Will Smith mangeant des spaghettis »

Peu après le lancement de la nouvelle version, les gens ont commencé à poser la question la plus évidente de l'analyse comparative : Quelle est la capacité de Veo 3 à faire croire que l'acteur oscarisé Will Smith mange des spaghettis ?

Les gens oublient qu'à l'époque, l'exemple de Smith n'était pas le meilleur générateur de vidéos d'IA existant ; un modèle de synthèse vidéo appelé Gen-2 de Runway avait déjà obtenu des résultats supérieurs (même s'il n'était pas encore accessible au public). Mais le résultat de ModelScope était suffisamment drôle et étrange pour rester dans les mémoires comme un premier exemple...
La fin de cet article est réservée aux abonnés. Soutenez le Club Developpez.com en prenant un abonnement pour que nous puissions continuer à vous proposer des publications.

Une erreur dans cette actualité ? Signalez-nous-la !