
En décembre 2024, OpenAI a lancé en disponibilité générale Sora, son programme de génération de vidéos par intelligence artificielle. L'utilisateur note en langage naturel ce qu'il veut obtenir comme résultat vidéo et Sora génère jusqu'à 20 secondes de vidéos.
Lors de l'annonce de la disponibilité, l'entreprise a précisé que le programme a encore des limites et que toutes les vidéos créées par Sora auront des métadonnées C2PA et un filigrane comme paramètre par défaut pour permettre aux utilisateurs d'identifier les vidéos créées par le programme.
Quelques jours après cette annonce, Google Deepmind a présenté Veo 2, un outil de génération de vidéos par intelligence artificielle qui s'appuie sur le Veo original et crée des « vidéos d'une qualité incroyable ». Cette annonce montrait la volonté de Google de concurrencer OpenAI dans le but de battre Sora et d'être le meilleur modèle IA vidéo. Selon Google, Veo 2 peut créer des « clips vidéos de quelques minutes » dans des résolutions 4k et est moins susceptible « d'halluciner » des détails indésirables.
Veo 3 : une prouesse technologique
Lors de l'édition 2025 de la conférence Google dédiée aux développeurs, Google a présenté son dernier modèle de génération de vidéos par IA, Veo 3, qui peut également créer et incorporer du son. Comme Veo 2, cet outil d'IA est en concurrence avec le générateur vidéo Sora d'OpenAI, mais sa capacité à incorporer du son dans la vidéo qu'il crée constitue une distinction essentielle. L'entreprise précise que Veo 3 peut incorporer de l'audio, notamment des dialogues entre les personnages ainsi que des sons d'animaux.

Une explosion de contenus générés par IA
Depuis son lancement, Veo 3 a été utilisé pour créer une multitude de vidéos virales sur YouTube et X, allant de sketchs humoristiques à des simulations de jeux vidéo. Par exemple, une vidéo générée par Veo 3 montre un faux unboxing d'iPhone, si réaliste qu'il est difficile de distinguer la fiction de la réalité. D'autres clips présentent des interviews de rue fictives ou des sessions de jeu "Fortnite" entièrement simulées. Ces contenus, bien que divertissants, soulèvent des préoccupations quant à la frontière entre réalité et fiction sur les plateformes numériques.
Ci-dessous par exemple, nous avons une vidéo générée par Veo 3 d'un standup
NO WAY. It did it. And, was that, actually funny?
— fofr (@fofrAI) May 20, 2025
Prompt:
> a man doing stand up comedy in a small venue tells a joke (include the joke in the dialogue) https://t.co/GFvPAssEHx pic.twitter.com/LrCiVAp1Bl
Celle-ci d'une sitcom qui n'a jamais existé
Good lord, Veo-3. I keep alternating between being stunned and laughing my ass off. pic.twitter.com/sdmEHoJlBh
— Theoretically Media (@TheoMediaAI) May 21, 2025
Une séquence d'un film qui n'existe pas
Created with Google Flow.
— Dave Clark (@Diesol) May 21, 2025
Visuals, Sound Design, and Voice were prompted using Veo 3 text-to-video.
Welcome to a new era of filmmaking. pic.twitter.com/E3NSA1WsXe
Ou d'une conférence technologique qui n'a jamais eu lieu
Before you ask: yes, everything is AI here. The video and sound both coming from a single text prompt using #Veo3 by @GoogleDeepMind .Whoever is cooking the model, let him cook! Congrats @Totemko and the team for the Google I/O live stream and the new Veo site! pic.twitter.com/sxZuvFU49s
— László Gaál (@laszlogaal_) May 21, 2025
Google Veo 3 permet de créer des vidéos de chant et de musique à partir d'une simple invite.
Google Veo 3 can create singing and music videos from a single prompt.
— Jerrod Lew (@jerrod_lew) May 20, 2025
It's just insane how coherent it is to the video.
🔈Sound On! pic.twitter.com/RMwc1sSOmX
Vidéo de Will Smith mangeant des spaghettis générée par Veo 3
Chaque fois qu'une entreprise dévoile un nouvel outil de génération de vidéos par l'IA, il se produit un rituel désormais familier : quelqu'un crée une vidéo de l'acteur Will Smith en train de manger des spaghettis. Ce qui n'était au départ qu'un mème s'est transformé en une référence originale pour tester le réalisme et les capacités des vidéos générées par l'IA. Le scénario bizarre (Smith mangeant des nouilles) est devenu un test décisif pour savoir dans quelle mesure un modèle peut gérer les expressions faciales, les mouvements des mains et les textures désordonnées comme la nourriture.
Avec le lancement de Veo 3 aux États-Unis, les utilisateurs ont rapidement mis à l'épreuve le nouvel outil vidéo IA de Google en générant de nouvelles vidéos de Will Smith mangeant des spaghettis. Jetez un coup d'œil à la vidéo partagée par Javi Lopez, un utilisateur de X.
Just got access to Veo 3 and the first thing I did was try the Will Smith spaghetti test. SOUND ON pic.twitter.com/y0CiZwNxgM
— Javi Lopez ⛩️ (@javilopen) May 22, 2025
Cette vidéo a été faite en 2023 avec Veo 2. Un bon point de départ pour faire des comparaisons sur l'évolution de l'outil de Google.
Google Veo 2 has done it.
— Jerrod Lew (@jerrod_lew) La fin de cet article est réservée aux abonnés. Soutenez le Club Developpez.com en prenant un abonnement pour que nous puissions continuer à vous proposer des publications.
We are now eating spaghett at last. pic.twitter.com/AZO81w8JC0