
dans une vidéo générée, Will Smith semble « croquer » des spaghettis cuits
L'épopée numérique de « Will Smith mangeant des spaghettis » incarne l'évolution fulgurante de l'intelligence artificielle dans la génération de vidéos. Ce mème, initialement perçu comme une curiosité grotesque, est devenu un symbole des avancées technologiques et des débats entourant l'IA.
Contexte
En mars 2023, un utilisateur de Reddit nommé "chaindrop" a partagé une vidéo générée par l'outil ModelScope, montrant une version déformée de Will Smith mangeant des spaghettis. Cette création, composée de segments de deux secondes assemblés, présentait des mouvements saccadés et des visuels dérangeants, suscitant à la fois fascination et malaise. Le clip est rapidement devenu viral, illustrant les limites de l'IA en matière de génération vidéo à l'époque.
Will Smith a souvent été remarqué pour son succès tout au long de sa carrière musicale, ainsi que son travail en tant qu'acteur à la télévision et au cinéma. Il a reçu de nombreuses récompenses et ses films ont rapporté plus de 9,5 milliards de dollars dans le monde, ce qui fait de lui l'une des stars les plus rentables d'Hollywood. Donc il n'est pas attendu dans ce genre de rubrique.
Pourtant, cette vidéo est devenue une sorte de mème ainsi qu'un benchmark : Il s'agit de voir si un nouveau générateur de vidéos peut représenter de manière réaliste l'acteur Will Smith en train d'engloutir un bol de nouilles.
Deux ans plus tard, lors de la conférence Google I/O 2025, la démonstration de Veo 3 a marqué un tournant. En recréant la scène de Will Smith mangeant des spaghettis avec un réalisme saisissant, intégrant dialogues et effets sonores, Google a montré les progrès réalisés depuis les débuts balbutiants de ModelScope. Cette évolution souligne la rapidité avec laquelle l'IA peut passer de résultats imparfaits à des rendus quasi indiscernables de la réalité
L'évolution technologique : de la caricature au réalisme
Google a lancé Veo 3, un nouveau modèle de synthèse vidéo par l'IA capable de faire ce qu'aucun grand générateur de vidéos par l'IA n'a pu faire jusqu'à présent : créer une piste audio synchronisée.
Comme Veo 2, cet outil d'IA est en concurrence avec le générateur vidéo Sora d'OpenAI, mais sa capacité à incorporer du son dans la vidéo qu'il crée constitue une distinction essentielle. L'entreprise précise que Veo 3 peut incorporer de l'audio, notamment des dialogues entre les personnages ainsi que des sons d'animaux. Si, de 2022 à 2024, nous avons assisté aux premières étapes de la génération de vidéos par l'IA, chaque vidéo était silencieuse et généralement de très courte durée. Désormais, vous pouvez entendre des voix, des dialogues et des effets sonores dans des clips vidéo haute définition de huit secondes.

Le benchmark « Will Smith mangeant des spaghettis »
Peu après le lancement de la nouvelle version, les gens ont commencé à poser la question la plus évidente de l'analyse comparative : Quelle est la capacité de Veo 3 à faire croire que l'acteur oscarisé Will Smith mange des spaghettis ?
Les gens oublient qu'à l'époque, l'exemple de Smith n'était pas le meilleur générateur de vidéos d'IA existant ; un modèle de synthèse vidéo appelé Gen-2 de Runway avait déjà obtenu des résultats supérieurs (même s'il n'était pas encore accessible au public). Mais le résultat de ModelScope était suffisamment drôle et étrange pour rester dans les mémoires comme un premier exemple médiocre de synthèse vidéo, utile pour les comparaisons futures au fur et à mesure que les modèles d'IA progressent.
Javi Lopez, développeur d'applications d'IA, est venu à la rescousse des amateurs de spaghettis avec Veo 3, en effectuant le test de Smith et en publiant les résultats sur X. Mais comme vous le remarquerez ci-dessous en regardant, la bande sonore a une qualité curieuse : Le faux Smith semble croquer les spaghettis.
[TWITTER]<blockquote class="twitter-tweet"><p lang="en" dir="ltr">Just got access to Veo 3 and the first thing I did was try the Will Smith spaghetti test. SOUND ON <a href="https://t.co/y0CiZwNxgM">pic.twitter.com/y0CiZwNxgM</a></p>— Javi Lopez ⛩️ (@javilopen) <a href="https://twitter.com/javilopen/status/1925495026903380358?ref_src=twsrc%5Etfw">May 22, 2025</a></blockquote> <script async src="https://platform.twitter.com/widgets.js" charset="utf-8"></script> [/TWITTER]
Il s'agit d'une faille dans la capacité expérimentale de Veo 3 à appliquer des effets sonores aux vidéos, probablement parce que les données d'entraînement utilisées pour créer les modèles d'IA de Google contenaient de nombreux exemples de bouches qui mâchent avec des effets sonores de craquement. Les modèles d'IA générative sont des machines de prédiction par appariement de motifs, et il faut leur montrer suffisamment d'exemples de différents types de médias pour qu'ils génèrent de nouveaux résultats convaincants. Si un concept est surreprésenté ou sous-représenté dans les données d'apprentissage, vous obtiendrez des résultats de génération inhabituels.
Une explosion de contenus générés par IA
Veo 3 est remarquable dans sa capacité à générer des dialogues et de la musique cohérents, et il a déjà donné lieu à de nombreux exemples intéressants que vous pouvez trouver sur X. Certains sont extrêmement réalistes.
Depuis son lancement, Veo 3 a été utilisé pour créer une multitude de vidéos virales sur YouTube et X, allant de sketchs humoristiques à des simulations de jeux vidéo. Par exemple, une vidéo générée par Veo 3 montre un faux unboxing d'iPhone, si réaliste qu'il est difficile de distinguer la fiction de la réalité. D'autres clips présentent des interviews de rue fictives ou des sessions de jeu "Fortnite" entièrement simulées. Ces contenus, bien que divertissants, soulèvent des préoccupations quant à la frontière entre réalité et fiction sur les plateformes numériques.
Ci-dessous par exemple, nous avons une vidéo générée par Veo 3 d'un standup
[TWITTER]<blockquote class="twitter-tweet"><p lang="en" dir="ltr">NO WAY. It did it. And, was that, actually funny?<br><br>Prompt:<br>> a man doing stand up comedy in a small venue tells a joke (include the joke in the dialogue) <a href="https://t.co/GFvPAssEHx">https://t.co/GFvPAssEHx</a> <a href="https://t.co/LrCiVAp1Bl">pic.twitter.com/LrCiVAp1Bl</a></p>— fofr (@fofrAI) <a href="https://twitter.com/fofrAI/status/1924924738494669011?ref_src=twsrc%5Etfw">May 20, 2025</a></blockquote> <script async src="https://platform.twitter.com/widgets.js" charset="utf-8"></script> [/TWITTER]
Celle-ci d'une sitcom qui n'a jamais existé
[TWITTER]<blockquote class="twitter-tweet"><p lang="en" dir="ltr">Good lord, Veo-3. I keep alternating between being stunned and laughing my ass off. <a href="https://t.co/sdmEHoJlBh">pic.twitter.com/sdmEHoJlBh</a></p>— Theoretically Media (@TheoMediaAI) <a href="https://twitter.com/TheoMediaAI/status/1925210469133877286?ref_src=twsrc%5Etfw">May 21, 2025</a></blockquote> <script async src="https://platform.twitter.com/widgets.js" charset="utf-8"></script> [/TWITTER]
Une séquence d'un film qui n'existe pas
[TWITTER]<blockquote class="twitter-tweet"><p lang="en" dir="ltr">Created with Google Flow. <br><br>Visuals, Sound Design, and Voice were prompted using Veo 3 text-to-video.<br><br>Welcome to a new era of filmmaking. <a href="https://t.co/E3NSA1WsXe">pic.twitter.com/E3NSA1WsXe</a></p>— Dave Clark (@Diesol) <a href="https://twitter.com/Diesol/status/1925114473544913004?ref_src=twsrc%5Etfw">May 21, 2025</a></blockquote> <script async src="https://platform.twitter.com/widgets.js" charset="utf-8"></script> [/TWITTER]
Ou d'une conférence technologique qui n'a jamais eu lieu
[TWITTER]<blockquote class="twitter-tweet"><p lang="en" dir="ltr">Before you ask: yes, everything is AI here. The video and sound both coming from a single text prompt using <a href="https://twitter.com/hashtag/Veo3?src=hash&ref_src=twsrc%5Etfw">#Veo3</a> by <a href="https://twitter.com/GoogleDeepMind?ref_src=twsrc%5Etfw">@GoogleDeepMind</a> .Whoever is cooking the model, let him cook! Congrats <a href="https://twitter.com/Totemko?ref_src=twsrc%5Etfw">@Totemko</a> and the team for the Google I/O live stream and the new Veo site! <a href="https://t.co/sxZuvFU49s">pic.twitter.com/sxZuvFU49s</a></p>— László Gaál (@laszlogaal_) <a href="https://twitter.com/laszlogaal_/status/1925094336200573225?ref_src=twsrc%5Etfw">May 21, 2025</a></blockquote> <script async src="https://platform.twitter.com/widgets.js" charset="utf-8"></script> [/TWITTER]
Google Veo 3 permet de créer des vidéos de chant et de musique à partir d'une simple invite.
[TWITTER]<blockquote class="twitter-tweet"><p lang="en" dir="ltr">Google Veo 3 can create singing and music videos from a single prompt.<br><br>It's just insane how coherent it is to the video.<br><br>🔈Sound On! <a href="https://t.co/RMwc1sSOmX">pic.twitter.com/RMwc1sSOmX</a></p>— Jerrod Lew (@jerrod_lew) <a href="https://twitter.com/jerrod_lew/status/1924934440486371589?ref_src=twsrc%5Etfw">May 20, 2025</a></blockquote> <script async src="https://platform.twitter.com/widgets.js" charset="utf-8"></script> [/TWITTER]
Réflexions sur l'impact de l'IA dans la création vidéo
L'affaire des spaghettis met en lumière des questions plus larges sur l'utilisation de l'IA dans la création de contenu. Si les avancées technologiques permettent des rendus de plus en plus réalistes, elles soulèvent également des préoccupations :
- Authenticité : Comment distinguer le réel du synthétique ?
- Consentement : Les figures publiques peuvent-elles contrôler l'utilisation de leur image par des IA ?
- Créativité : L'IA complète-t-elle ou remplace-t-elle la créativité humaine ?
Ces interrogations rappellent l'importance d'un encadrement juridique de l'utilisation de l'IA dans les médias.
Conclusion
Le parcours de « Will Smith mangeant des spaghettis » illustre à la fois les prouesses et les défis de l'intelligence artificielle dans la création vidéo. Ce mème, né d'une expérimentation technique, est devenu un point de départ pour des discussions profondes sur l'avenir de la création numérique. Alors que l'IA continue de progresser, il est essentiel de réfléchir à la manière dont nous l'intégrons dans notre société et notre culture.
Source : vidéos
Et vous ?





Vous avez lu gratuitement 14 articles depuis plus d'un an.
Soutenez le club developpez.com en souscrivant un abonnement pour que nous puissions continuer à vous proposer des publications.
Soutenez le club developpez.com en souscrivant un abonnement pour que nous puissions continuer à vous proposer des publications.