Ce mois de décembre, OpenAI a lancé la version officielle de son programme de génération de vidéos par intelligence artificielle "Sora". Le programme intègre des messages écrits et crée des vidéos numériques d'une durée maximale de 20 secondes. Mais l'entreprise précise que le programme a encore des limites. De plus, OpenAI a déclaré que toutes les vidéos créées par Sora auront des métadonnées C2PA et un filigrane comme paramètre par défaut pour permettre aux utilisateurs d'identifier les vidéos créées par le programme.
En réponse, Google Deepmind a présenté Veo 2, un nouvel outil de génération de vidéos par intelligence artificielle (IA) qui s'appuie sur le Veo original et crée des "vidéos d'une qualité incroyable", dans le but de battre OpenAI. Nouvelle itération de Veo, l'outil phare de conversion de texte en vidéo de Google, Veo 2 peut créer des "clips de quelques minutes" dans des résolutions 4k et Google a mis l'accent sur sa compréhension des demandes cinématographiques.
Pour montrer les capacités de Veo 2, Google a déclaré : "Suggérez objectif 18 mm" dans votre requête et Veo 2 saura créer le plan grand angle pour lequel cet objectif est connu, ou estompez l'arrière-plan et concentrez-vous sur votre sujet en ajoutant "faible profondeur de champ" dans votre requête. De plus, Google affirme que Veo 2 est moins susceptible d'"halluciner" des détails indésirables et a une "meilleure compréhension de la physique du monde réel et des nuances des mouvements et de l'expression humaine".
Toutefois, Google a fait preuve de circonspection en ce qui concerne l'accès à l'outil. Actuellement, les utilisateurs ne peuvent accéder à Veo 2 que par l'intermédiaire de leur plateforme VideoFX, qui dispose d'une liste d'attente. Une fois inscrits, les utilisateurs ne pourront toujours pas exploiter toutes les capacités de l'outil, car il est limité à une résolution de 720p et à une durée de huit secondes, alors que les abonnés à ChatGPT Pro peuvent créer des vidéos de 1080p d'une durée maximale de 20 secondes avec Sora.
[TWITTER]<blockquote class="twitter-tweet"><p lang="en" dir="ltr">Today, we’re announcing Veo 2: our state-of-the-art video generation model which produces realistic, high-quality clips from text or image prompts. 🎥<br><br>We’re also releasing an improved version of our text-to-image model, Imagen 3 - available to use in ImageFX through… <a href="https://t.co/h6ejHaMUM4">pic.twitter.com/h6ejHaMUM4</a></p>— Google DeepMind (@GoogleDeepMind) <a href="https://twitter.com/GoogleDeepMind/status/1868703624714395907?ref_src=twsrc%5Etfw">December 16, 2024</a></blockquote> <script async src="https://platform.twitter.com/widgets.js" charset="utf-8"></script>[/TWITTER]
Voici l'annonce de Google :
Nous annonçons de nouvelles versions de Veo et d'Imagen et présentons notre dernière expérience en matière de génération d'images : Whisk.
En début d'année, nous avons présenté notre modèle de génération vidéo, Veo, et notre dernier modèle de génération d'images, Imagen 3. Depuis, il est passionnant de voir les gens donner vie à leurs idées avec l'aide de ces modèles : Les créateurs de YouTube explorent les possibilités créatives des arrière-plans vidéo pour leurs courts métrages YouTube, les entreprises clientes améliorent les flux de travail créatifs sur Vertex AI et les créatifs utilisent VideoFX et ImageFX pour raconter leurs histoires. En collaboration avec des cinéastes et des entreprises, nous continuons à développer et à faire évoluer ces technologies.
Aujourd'hui, nous présentons un nouveau modèle vidéo, Veo 2, et la dernière version d'Imagen 3, qui permettent tous deux d'obtenir des résultats de pointe. Ces modèles sont désormais disponibles dans VideoFX, ImageFX et Whisk, notre nouvelle expérience Labs.
Veo 2 : un modèle de pointe de génération de vidéo
Veo 2 crée des vidéos d'une "incroyable qualité dans un large éventail de sujets et de styles". Lors de comparaisons directes effectuées par des évaluateurs humains, Veo 2 a obtenu des résultats à la pointe de la technologie par rapport aux principaux modèles.
Il apporte une meilleure compréhension de la physique du monde réel et des nuances des mouvements et de l'expression humaine, ce qui contribue à améliorer le niveau de détail et le réalisme en général. Veo 2 comprend le langage unique de la cinématographie : demandez-lui un genre, spécifiez un objectif, suggérez des effets cinématographiques et Veo 2 s'en chargera - à des résolutions allant jusqu'au 4K, et pour des durées allant jusqu'à plusieurs minutes. Demandez un travelling en contre-plongée qui glisse au milieu d'une scène, ou un gros plan sur le visage d'une scientifique qui regarde dans son microscope, et Veo 2 le créera. Suggérez "objectif 18 mm" dans votre demande et Veo 2 saura créer le plan grand angle pour lequel cet objectif est connu, ou estompez l'arrière-plan et concentrez-vous sur votre sujet en ajoutant "faible profondeur de champ" dans votre demande.
Alors que les modèles vidéo "hallucinent" souvent des détails indésirables - des doigts supplémentaires ou des objets inattendus, par exemple - Veo 2 les produit moins souvent, ce qui rend les résultats plus réalistes.
Notre engagement en faveur de la sécurité et du développement responsable a guidé Veo 2. Nous avons été intentionnellement mesurés dans l'augmentation de la disponibilité de Veo, afin de pouvoir aider à identifier, comprendre et améliorer la qualité et la sécurité du modèle tout en le déployant lentement via VideoFX, YouTube et Vertex AI.
Tout comme le reste de nos modèles de génération d'images et de vidéos, les sorties de Veo 2 incluent un filigrane SynthID invisible qui permet d'identifier qu'elles sont générées par l'IA, réduisant ainsi les risques de désinformation et d'attribution erronée.
Aujourd'hui, nous intégrons les nouvelles fonctionnalités de Veo 2 à VideoFX, l'outil de génération de vidéos de Google Labs, et élargissons le nombre d'utilisateurs qui peuvent y accéder. Visitez Google Labs pour vous inscrire sur la liste d'attente. Nous prévoyons également d'étendre Veo 2 à YouTube Shorts et à d'autres produits l'année prochaine.
Imagen 3 : un modèle de pointe de génération d'images
Nous avons également amélioré notre modèle de génération d'images Imagen 3, qui génère désormais des images plus lumineuses et mieux composées. Il peut désormais restituer des styles artistiques plus variés avec une plus grande précision - du photoréalisme à l'impressionnisme, de l'abstrait à l'anime. Cette mise à niveau permet également de suivre plus fidèlement les instructions et de restituer des détails et des textures plus riches. Dans les comparaisons côte à côte des résultats obtenus par des évaluateurs humains et des principaux modèles de génération d'images, Imagen 3 a obtenu des résultats à la pointe de la technologie.
À partir d'aujourd'hui, le dernier modèle Imagen 3 sera déployé à l'échelle mondiale dans ImageFX, notre outil de génération d'images des laboratoires Google, dans plus de 100 pays. Visitez ImageFX pour commencer.
En début d'année, nous avons présenté notre modèle de génération vidéo, Veo, et notre dernier modèle de génération d'images, Imagen 3. Depuis, il est passionnant de voir les gens donner vie à leurs idées avec l'aide de ces modèles : Les créateurs de YouTube explorent les possibilités créatives des arrière-plans vidéo pour leurs courts métrages YouTube, les entreprises clientes améliorent les flux de travail créatifs sur Vertex AI et les créatifs utilisent VideoFX et ImageFX pour raconter leurs histoires. En collaboration avec des cinéastes et des entreprises, nous continuons à développer et à faire évoluer ces technologies.
Aujourd'hui, nous présentons un nouveau modèle vidéo, Veo 2, et la dernière version d'Imagen 3, qui permettent tous deux d'obtenir des résultats de pointe. Ces modèles sont désormais disponibles dans VideoFX, ImageFX et Whisk, notre nouvelle expérience Labs.
Veo 2 : un modèle de pointe de génération de vidéo
Veo 2 crée des vidéos d'une "incroyable qualité dans un large éventail de sujets et de styles". Lors de comparaisons directes effectuées par des évaluateurs humains, Veo 2 a obtenu des résultats à la pointe de la technologie par rapport aux principaux modèles.
Il apporte une meilleure compréhension de la physique du monde réel et des nuances des mouvements et de l'expression humaine, ce qui contribue à améliorer le niveau de détail et le réalisme en général. Veo 2 comprend le langage unique de la cinématographie : demandez-lui un genre, spécifiez un objectif, suggérez des effets cinématographiques et Veo 2 s'en chargera - à des résolutions allant jusqu'au 4K, et pour des durées allant jusqu'à plusieurs minutes. Demandez un travelling en contre-plongée qui glisse au milieu d'une scène, ou un gros plan sur le visage d'une scientifique qui regarde dans son microscope, et Veo 2 le créera. Suggérez "objectif 18 mm" dans votre demande et Veo 2 saura créer le plan grand angle pour lequel cet objectif est connu, ou estompez l'arrière-plan et concentrez-vous sur votre sujet en ajoutant "faible profondeur de champ" dans votre demande.
Alors que les modèles vidéo "hallucinent" souvent des détails indésirables - des doigts supplémentaires ou des objets inattendus, par exemple - Veo 2 les produit moins souvent, ce qui rend les résultats plus réalistes.
Notre engagement en faveur de la sécurité et du développement responsable a guidé Veo 2. Nous avons été intentionnellement mesurés dans l'augmentation de la disponibilité de Veo, afin de pouvoir aider à identifier, comprendre et améliorer la qualité et la sécurité du modèle tout en le déployant lentement via VideoFX, YouTube et Vertex AI.
Tout comme le reste de nos modèles de génération d'images et de vidéos, les sorties de Veo 2 incluent un filigrane SynthID invisible qui permet d'identifier qu'elles sont générées par l'IA, réduisant ainsi les risques de désinformation et d'attribution erronée.
Aujourd'hui, nous intégrons les nouvelles fonctionnalités de Veo 2 à VideoFX, l'outil de génération de vidéos de Google Labs, et élargissons le nombre d'utilisateurs qui peuvent y accéder. Visitez Google Labs pour vous inscrire sur la liste d'attente. Nous prévoyons également d'étendre Veo 2 à YouTube Shorts et à d'autres produits l'année prochaine.
Imagen 3 : un modèle de pointe de génération d'images
Nous avons également amélioré notre modèle de génération d'images Imagen 3, qui génère désormais des images plus lumineuses et mieux composées. Il peut désormais restituer des styles artistiques plus variés avec une plus grande précision - du photoréalisme à l'impressionnisme, de l'abstrait à l'anime. Cette mise à niveau permet également de suivre plus fidèlement les instructions et de restituer des détails et des textures plus riches. Dans les comparaisons côte à côte des résultats obtenus par des évaluateurs humains et des principaux modèles de génération d'images, Imagen 3 a obtenu des résultats à la pointe de la technologie.
À partir d'aujourd'hui, le dernier modèle Imagen 3 sera déployé à l'échelle mondiale dans ImageFX, notre outil de génération d'images des laboratoires Google, dans plus de 100 pays. Visitez ImageFX pour commencer.
Pour convaincre Hollywood que Sora n’entraînera pas la fin de la production cinématographique traditionnelle, mais plutôt son amélioration, Sam Altman et OpenAI a notamment organisé des réunions avec les principaux studios, Paramount, Universal et Warner Bros Discovery, afin de présenter sa technologie de génération vidéo Sora et de dissiper les craintes que le modèle d'intelligence artificielle ne nuise à l'industrie cinématographique. Reste maintenant à voir l'impact de ces nouveaux modèles de génération de vidéo par IA.
Source : Google
Et vous ?
Pensez-vous que ce modèle de Google est crédible ou pertinent ?
Quel est votre avis sur le sujet ?
Voir aussi :
Google présente Veo, son modèle d'IA pour générer des vidéos haute définition, et Imagen 3, son modèle texte-image de haute qualité, ainsi que des enregistrements de démonstration créés avec Music AI Sandbox
Les films seront-ils bientôt générés dans leur entièreté par IA ? Oui, selon l'acteur et investisseur technologique Ashton Kutcher qui estime que ce sera le cas après avoir passé Sora d'OpenAI au test
Meta présente Movie Gen : une IA capable de créer des vidéos personnalisables et réalistes à partir d'une seule image, ou de modifier une vidéo existante, lui ajoutant des éléments visuels ou sonores
George Lucas pense que l'intelligence artificielle dans le cinéma est inévitable, chercher à faire sans serait comme dire : « Je ne crois pas que ces voitures vont fonctionner. Restons-en aux chevaux. »