
Google a annoncé Veo 3, un générateur de vidéo par intelligence artificielle (IA) capable de créer et d'incorporer du son. Cet outil d'IA est en concurrence avec le générateur vidéo Sora d'OpenAI, mais sa capacité à incorporer du son dans la vidéo qu'il crée constitue une distinction essentielle. L'outil d'IA vidéo-audio est déjà disponible pour les abonnés américains de la nouvelle formule d'abonnement Ultra de Google, d'un montant de 249,99 dollars par mois, qui s'adresse aux passionnés d'IA les plus acharnés.
En décembre 2024, OpenAI a lancé la version officielle de son programme de génération de vidéos par intelligence artificielle (IA) "Sora". Le programme intègre des messages écrits et crée des vidéos numériques d'une durée maximale de 20 secondes. Lors de l'annonce, l'entreprise a précisé que le programme a encore des limites et que toutes les vidéos créées par Sora auront des métadonnées C2PA et un filigrane comme paramètre par défaut pour permettre aux utilisateurs d'identifier les vidéos créées par le programme.
Quelques jours après cette annonce, Google Deepmind a présenté Veo 2, un outil de génération de vidéos par intelligence artificielle (IA) qui s'appuie sur le Veo original et crée des "vidéos d'une qualité incroyable". Cette annonce montrait la volonté de Google de concurrencer OpenAI dans le but de battre Sora et d'être le meilleur modèle IA vidéo. Selon Google, Veo 2 peut créer des "clips de quelques minutes" dans des résolutions 4k et est moins susceptible d'"halluciner" des détails indésirables.
Le 21 mai 2025, Google a annoncé son dernier modèle de génération de vidéos par IA, "Veo 3", qui peut également créer et incorporer du son. Comme Veo 2, cet outil d'IA est en concurrence avec le générateur vidéo Sora d'OpenAI, mais sa capacité à incorporer du son dans la vidéo qu'il crée constitue une distinction essentielle. L'entreprise précise que Veo 3 peut incorporer de l'audio, notamment des dialogues entre les personnages ainsi que des sons d'animaux.
"Veo 3 excelle dans les domaines du texte et de l'image, de la physique du monde réel et de la synchronisation labiale précise", a déclaré Eli Collins, vice-président produit de Google DeepMind. L'outil d'IA vidéo-audio est déjà disponible pour les abonnés américains à la nouvelle formule d'abonnement Ultra de Google, d'un montant de 249,99 dollars par mois, qui s'adresse aux passionnés d'IA. Veo 3 sera également disponible pour les utilisateurs de la plateforme d'entreprise Vertex AI de Google.
Google a également annoncé Imagen 4, son dernier outil de génération d'images, qui, selon l'entreprise, produit des images de meilleure qualité grâce à des invites de l'utilisateur. En outre, Google a dévoilé Flow, un nouvel outil de réalisation de films qui permet aux utilisateurs de créer des vidéos cinématographiques en décrivant les lieux, les plans et les préférences de style. Les utilisateurs peuvent accéder à cet outil via Gemini, Whisk, Vertex AI et Workspace.
Les derniers lancements interviennent alors que l'imagerie et la vidéo deviennent des cas d'utilisation populaires pour les invites d'IA générative. En mars, Sam Altman, PDG d'OpenAI, a déclaré que le générateur d'images 4o de ChatGPT était si populaire qu'il avait fait "fondre" les puces GPU de l'entreprise. L'entreprise a déclaré qu'elle avait dû limiter temporairement l'utilisation de cette fonction.
Google a un bilan mitigé en ce qui concerne ses générateurs d'images IA. En 2024, l'entreprise a dû relancer son outil Imagen 3 après avoir obtenu des résultats historiquement inexacts aux demandes des utilisateurs, ce qui a suscité de nombreuses critiques. Le cofondateur Sergey Brin a déclaré par la suite que cette mésaventure était due à un manque de "tests approfondis".
Le géant technologique a également mis à jour son générateur de vidéos Veo 2 pour permettre aux utilisateurs d'ajouter ou de supprimer des objets dans les vidéos à l'aide d'invites textuelles. En outre, Google a ouvert son modèle de génération de musique Lyria 2 aux créateurs via sa plateforme YouTube Shorts et aux entreprises utilisant Vertex AI.

Veo 3 est le dernier modèle de génération vidéo de Google DeepMind. Google affirme que Veo 3 peut générer des vidéos avec :
- Une qualité améliorée lors de la génération de vidéos à partir d'invites textuelles et d'images.
- De la parole, comme des dialogues et des voix off
- De l'audio, comme de la musique et des effets sonores.
Voici quelques exemples :
- Invite : Un plan moyen, un cadre d'aventure historique : La lumière chaude d'une lampe éclaire un cartographe dans un bureau encombré, en train d'étudier une carte ancienne et tentaculaire étalée sur une grande table. Cartographe : « D'après cette vieille carte marine, l'île perdue n'est pas un mythe ! Nous devons préparer une expédition immédiatement ! »
- Invite : Un plan en contre-plongée montre une porte violette claire ouverte menant d'une pièce aux murs violets clairs et au sol gris à une scène extérieure animée. De l'herbe verte luxuriante et des fleurs sauvages se répandent de la porte sur le sol intérieur, créant une transition fantaisiste entre les espaces. Au-delà de la porte, des collines verdoyantes parsemées de fleurs sauvages s'étendent vers un ciel clair et lumineux. Un seul arbre se dresse au premier plan de la scène extérieure, ses feuilles ajoutant de la profondeur à la vue. La lumière du soleil et les éléments naturels contrastent avec la simplicité de l'espace intérieur, invitant à l'émerveillement et à l'évasion.
Pour l'instant, Veo 3 est en avant-première privée sur Vertex AI et ne sera disponible plus largement que dans les semaines à venir.
Voici quelques retours d'entreprises qui ont pu tester Veo 3 :




Présentation d'Imagen 4
Présenté en avant-première publique, Imagen 4 est le dernier modèle de génération d'images de haute qualité de Google. L'entreprise affirme que Imagen 4 est capable de :
- Rendu de texte exceptionnel et adhérence rapide
- Qualité d'image globale supérieure dans tous les styles
- Prise en charge multilingue des invites pour aider les créateurs dans le monde entier
Voici quelques exemples :
- Invite : Capturez un gros plan intime baigné par la lumière chaude et douce du soleil de fin d'après-midi qui filtre dans une cuisine typique des années 1960. Le point de mire est un emballage vintage de farine tout usage au design charmant, posé sur un comptoir en Formica moucheté. L'emballage lui-même évoque la nostalgie à l'état pur : peut-être un papier épais et légèrement texturé dans un ton crème chaud, orné d'une typographie simple et audacieuse (un empattement ou une écriture sympathique) en rouge et bleu classique « FARINE TOUT USAGE », avec une charmante illustration comme une gerbe de blé stylisée ou un joyeux personnage de boulanger. En caractères gras plus petits, au bas de l'emballage : « NET WT 5 LBS (80 OZ) 2.27kg ». Concentrez-vous sur les détails de l'emballage - les bords légèrement souples du sac en papier, la texture de l'impression vintage, le texte invitant « Farine tout usage ». De subtils indices de la cuisine des années 1960 encadrent la prise de vue - le bord chromé du comptoir qui brille doucement, un aperçu flou du dosseret en céramique jaune pastel, ou le coin d'une boîte métallique vintage placée juste en dehors du champ. La faible profondeur de champ maintient l'attention sur l'emballage magnifiquement conçu, créant une esthétique riche en chaleur, en authenticité et en attrait nostalgique.
- Invite : Cette bande dessinée de quatre planches utilise un style artistique charmant et délibérément pixellisé qui rappelle les jeux vidéo 8 bits classiques, avec des formes simples et une palette de couleurs limitée et lumineuse dominée par les verts, les bleus, les bruns et le gris/noir emblématique du dinosaure. Le décor est une plage de pixels stylisée. Le premier panneau montre le dinosaure T-Rex de Google Chrome, avec sa forme pixellisée caractéristique, portant de minuscules lunettes de soleil pixellisées et se prélassant sur une serviette de plage pixellisée sous un soleil jaune pâle. Des palmiers pixellisés se balancent doucement à l'arrière-plan, dans un ciel bleu pixellisé. Une légende en caractères pixelisés indique : « Même les messages d'erreur ont besoin de vacances ». La deuxième planche est un gros plan du T-Rex qui tente de construire un château de sable en pixels. Il tapote maladroitement un monticule de pixels bruns avec ses minuscules bras de pixels, l'air concentré. De petits coquillages pixellisés parsèment le sable autour de lui. La troisième image montre le T-Rex sautant joyeusement par-dessus une série de cactus pixellisés plantés près de la plage, imitant ainsi son jeu d'évitement d'obstacles. Un petit effet sonore « Boing ! Boing ! » s'affiche dans une police de caractères en bloc au-dessus de chaque saut. Un crabe pixellisé observe la scène de côté, en agitant sa pince pixellisée. Le dernier panneau montre le T-Rex flottant paisiblement sur le dos dans l'eau de pixels bleus, les lunettes de soleil toujours en place, avec une expression satisfaite. Une petite bulle de pensée au-dessus de lui contient des « Zzz... » pixellisés indiquant la relaxation.
Pour commencer à utiliser Imagen 4 en avant-première publique sur Vertex AI, vous pouvez utiliser Media Studio ou exécuter l'exemple de code suivant, qui utilise le SDK Google Gen AI pour Python.
Code : | Sélectionner tout |
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 | from google import genai # TODO(developer): Update and un-comment below lines # project_id = "PROJECT_ID" client = genai.Client(vertexai=True, project=project_id, location="us-central1") prompt = """ A white wall with two Art Deco travel posters mounted. First poster has the text: "NEPTUNE", tagline: "The jewel of the solar system!' Second poster has the text: "JUPITER", tagline: "Travel with the giants! """ image = client.models.generate_images( model="imagen-4.0-generate-preview-05-20", prompt=prompt, ) # OPTIONAL: View the generated image in a notebook # image.generated_images[0].image.show() |
Présentation de Lyria 2
Lors de la conférence Google Cloud Next 2025, Google a annoncé Lyria dans Vertex AI, le modèle de conversion de texte en musique de Google. Récemment, Google annonce la disponibilité générale de Lyria 2 dans Vertex AI. Google affirme que Lyria 2 offre une musique de haute fidélité dans un large éventail de styles et permet :
- un contenu audio de haute qualité à partir d'invites textuelles
- un plus grand contrôle créatif sur les instruments, le BPM et d'autres caractéristiques
Voici quelques exemples :
- Invite : Cumbia péruvienne rythmée et entraînante avec un côté psychédélique, LA, performance en direct lors d'un festival de musique latine, incorporant des guitares électriques, des basses et utilisant souvent une section de percussions timbales proéminentes, créant une ambiance puissante et dansante. Vibrant et énergique.
- Invite : Musique orchestrale de film, enregistrement en studio, Londres, orchestre de 100 musiciens, majestueux et profond. Mélange de mélodies planantes, de changements harmoniques dramatiques et d'éléments percussifs puissants, avec des instruments tels que des cors, des cordes et des timbales, et une approche thématique, avec des orchestrations complexes, une gamme dynamique et une profondeur émotionnelle, évoquant une atmosphère cinématographique et impressionnante.
Pour commencer à créer du contenu avec Lyria 2, consultez Media Studio sur Vertex AI. Une fois sur place, vous pouvez commencer à générer de la musique à partir d'invites textuelles ou accéder à l'API du modèle via Vertex AI.
Voici quelques retours d'entreprises qui ont pu tester Lyria 2 :


La sécurité et la sûreté de tout contenu généré par l'IA sont cruciales. C'est pourquoi les modèles doivent être conçus avec des protections intégrées, vous permettant de vous concentrer sur votre travail créatif. Selon Google, Veo 3, Imagen 4 et Lyria 2 sont tous construits avec la sécurité comme principe de conception fondamental en partenariat avec Google DeepMind.
- Filigrane : Par défaut, toutes les créations générées avec Veo, Imagen et Lyria utilisent SynthID, une technologie qui intègre un filigrane invisible directement dans le résultat généré. Ce filigrane permet d'identifier les médias générés par l'IA, garantissant ainsi la transparence.
- Filtres de sécurité : Les invites d'entrée et le contenu de sortie de tous les modèles de médias générés par l'IA sont accessibles à l'aide d'une liste de filtres de sécurité. En étant en mesure de configurer le degré d'agressivité du filtrage du contenu, vous pouvez vous assurer que les ressources respectent les valeurs de votre marque. Dans les données visuelles de sortie, vous avez également le contrôle sur la génération des personnes.
Et vous ?


Voir aussi :



Vous avez lu gratuitement 16 articles depuis plus d'un an.
Soutenez le club developpez.com en souscrivant un abonnement pour que nous puissions continuer à vous proposer des publications.
Soutenez le club developpez.com en souscrivant un abonnement pour que nous puissions continuer à vous proposer des publications.