Google lance Gemini Omni, une nouvelle gamme de modèles d'IA conçus pour associer un raisonnement textuel avancé à la création multimédia, et transforme les images, les fichiers audio et le texte en vidéo Google a lancé Gemini Omni, une nouvelle famille de modèles d'intelligence artificielle (IA) conçus pour associer un raisonnement textuel avancé à la création multimédia. Cette famille de modèles est conçue pour accepter n'importe quelle combinaison de texte, d'images, d'audio et de vidéo comme instruction d'entrée afin de générer et de modifier du contenu vidéo de haute qualité, tout en progressant vers son objectif ultime : la création d'une intelligence artificielle générale (AGI). Google a confirmé que, bien que cette famille de modèles commence par la production vidéo, elle s'étendra à l'avenir pour prendre en charge la génération directe d'images et d'audio.
Gemini est une famille de grands modèles de langage multimodaux (LLM) développée par Google DeepMind, qui succède à LaMDA et PaLM 2. Composée de Gemini Pro, Gemini Deep Think, Gemini Flash et Gemini Flash Lite, elle a été annoncée le 6 décembre 2023. Elle alimente le chatbot du même nom. Gemini (également connu sous le nom de Google Gemini et anciennement appelé Bard) est un chatbot et assistant virtuel basé sur l'intelligence artificielle générative développé par Google.
L'architecture Gemini est entraînée en natif sur plusieurs types de données, ce qui permet aux modèles de traiter et de générer simultanément du texte, du code informatique, des images, de l'audio et de la vidéo. Google distribue cette technologie sous différentes formes, allant de versions efficaces sur appareil (« Nano ») et de variantes économiques à haut débit (« Flash ») à des modèles à haute puissance de calcul conçus pour le raisonnement complexe (« Pro » et « Ultra »). Les générations de modèles 1.5 et 3 ont introduit des fenêtres de contexte étendues, permettant l'analyse de grands ensembles de données tels que des bases de code entières, des vidéos longues ou de vastes archives de documents en une seule requête.
Récemment, Google a lancé Gemini Omni, une nouvelle famille de modèles d'intelligence artificielle (IA) conçus pour associer un raisonnement textuel avancé à la création multimédia. Cette famille de modèles est conçue pour accepter n'importe quelle combinaison de texte, d'images, d'audio et de vidéo comme instruction d'entrée afin de générer et de modifier du contenu vidéo de haute qualité, tout en progressant vers son objectif ultime : la création d'une intelligence artificielle générale (AGI). La première étape dans la création d'un modèle de monde est Gemini Omni Flash, un outil en cours d'intégration directe dans l'application Gemini, Google Flow et YouTube Shorts. Google a confirmé que, bien que cette famille de modèles commence par la production vidéo, elle s'étendra à l'avenir pour prendre en charge la génération directe d'images et d'audio.
Gemini Omni fonctionne comme un moteur multimodal, ce qui signifie qu'il traite différents types de médias simultanément plutôt que de les convertir d'abord en texte. Selon l'annonce de Google, le modèle s'articule autour de trois fonctionnalités principales. Au lieu d'utiliser un logiciel de montage vidéo traditionnel basé sur une timeline, les utilisateurs peuvent modifier des clips vidéo en saisissant ou en dictant des instructions en langage naturel.
Le système, conçu pour mémoriser le contexte des instructions précédentes au fil de plusieurs échanges, utilisera ces données pour créer un résultat qui préserve la cohérence des personnages, conserve les détails de l'environnement et suit les angles de caméra. Les utilisateurs peuvent demander à l'outil de modifier des objets spécifiques, de remplacer des arrière-plans entiers, d'introduire de nouveaux personnages ou de transformer complètement le style visuel d'une vidéo qu'ils ont mise en ligne – comme l'a évoqué le PDG Sundar Pichai.
Google a déclaré que Gemini Omni va au-delà de la simple reconnaissance de motifs visuels en calculant la physique sous-jacente d’une scène. Le modèle intègre une compréhension actualisée des forces physiques telles que la gravité, la dynamique des fluides et l’énergie cinétique afin de rendre les mouvements générés réalistes. Le modèle peut synthétiser une seule vidéo à partir de plusieurs sources distinctes. Les utilisateurs peuvent télécharger une image d’un personnage, une description textuelle d’un décor et un clip vidéo présentant un style artistique spécifique, et Gemini Omni fusionnera ces références en une vidéo unifiée. De plus, si les utilisateurs le souhaitent, ils peuvent inclure des vidéos générées mettant en scène une version numérique d’eux-mêmes qui leur ressemble et parle comme eux, en utilisant leur propre voix.
Pour répondre aux préoccupations de sécurité concernant les deepfakes et la désinformation automatisée, Google a indiqué qu’il ne mettait pas à la disposition du public les fonctionnalités plus avancées d’édition vidéo, audio et vocale, le temps de mener des tests supplémentaires. De plus, tout contenu vidéo généré par les modèles Omni intégrera automatiquement SynthID, un filigrane numérique développé par Google DeepMind. Ces filigranes sont invisibles à l'œil nu, mais permettent aux utilisateurs de vérifier si une vidéo a été générée par l'IA via Google Search, Gemini dans Chrome ou l'application Gemini.
Voici l'annonce de Google :
Présentation de Gemini Omni
L'année dernière, Nano Banana a permis d'appliquer l'intelligence de Gemini à la génération et à la retouche d'images. Depuis, cet outil a aidé des millions de personnes à restaurer de vieilles photos, à créer des designs à partir de croquis et à visualiser des idées d'une manière qui était auparavant impossible. Dès le départ, nous avons conçu Gemini pour qu'il soit multimodal de manière native, et nous franchissons aujourd'hui une nouvelle étape.
Nous lançons Gemini Omni, où la capacité de raisonnement de Gemini rencontre sa capacité de création. Omni est notre nouveau modèle capable de créer n’importe quoi à partir de n’importe quelle entrée, à commencer par la vidéo. Avec Omni, vous pouvez combiner des images, de l’audio, de la vidéo et du texte comme données d’entrée et générer des vidéos de haute qualité fondées sur les connaissances du monde réel de Gemini. Vous pouvez également éditer facilement vos vidéos par le biais d’une conversation.
Aujourd’hui, nous déployons le premier modèle de la famille Omni : Gemini Omni Flash, sur l’application Gemini, Google Flow et YouTube Shorts. À terme, nous prendrons en charge des formats de sortie tels que l’image et l’audio. Voici quelques-unes des caractéristiques qui rendent Omni unique :
Modifiez vos vidéos par le biais d’une conversation
Gemini Omni vous offre un moyen plus simple de modifier des vidéos — grâce au langage naturel. Chaque instruction s’appuie sur la précédente. Vos personnages restent cohérents, les lois de la physique sont respectées et la scène se souvient de ce qui s'est passé auparavant.
- Transformez le monde qui vous entoure. Modifiez des éléments spécifiques, ou changez tout. Votre vidéo devient le point de départ de quelque chose que vous n'auriez jamais pu filmer vous-même.
- Réinventez l'action. Prenez une vidéo que vous avez tournée et demandez simplement à Omni de modifier ce qui s'y passe. Modifiez l'action, ajoutez de nouveaux personnages ou objets, ou transformez un moment en quelque chose d'inattendu.
- Affinez vos vidéos en plusieurs étapes. Modifiez l'environnement, l'angle, le style ou même des détails spécifiques, sans jamais perdre le fil de votre scène d'origine. Faites défiler le carrousel pour voir comment les modifications s'enchaînent.
Donnez vie à vos idées en vous appuyant sur la connaissance du monde de Gemini
Gemini Omni ne se contente pas de créer des scènes qui semblent réelles, il réfléchit à ce qui devrait se passer ensuite. Il combine une compréhension intuitive de la physique avec les connaissances de Gemini en matière d'histoire, de sciences et de contexte culturel, comblant ainsi le fossé entre le photoréalisme et la narration significative.
- Créez des visuels avec une physique plus précise. Omni dispose d’une compréhension intuitive améliorée des forces telles que la gravité, l’énergie cinétique et la dynamique des fluides, ce qui vous permet de créer des scènes plus réalistes.
- Alliez connaissances et créativité. Omni s'appuie sur les connaissances de Gemini pour relier le langage, l'imagerie et le sens d'une manière qui va bien au-delà de la simple reconnaissance de formes.
- Des idées complexes rendues visuelles. Omni peut créer des vidéos explicatives captivantes à partir de brèves consignes, en générant des visuels qui décomposent des idées plus complexes.
Créez des vidéos à partir de n'importe quelle combinaison d'entrées
- Utilisez n'importe quelle référence. Omni transforme n'importe quelle référence (image, texte, vidéo ou audio) en un résultat unique et cohérent. Dans un premier temps, seules les références vocales seront prises en charge pour l'audio, mais nous proposerons bientôt d'autres types d'entrées audio.
- Commencez par ce que vous avez. À l'aide de références visuelles, vous pouvez utiliser des images de personnages, de scènes ou de dessins pour créer quelque chose qui corresponde à votre vision.
Créez des vidéos avec votre propre avatar numérique
Nous nous engageons à développer l'IA de manière responsable et nous avons mis en place des politiques claires pour protéger les utilisateurs et régir l'utilisation de nos outils d'IA. Pour commencer, vous pouvez créer des vidéos avec votre propre voix en utilisant les avatars, qui créent une version numérique de vous-même afin que vous puissiez générer des vidéos qui vous ressemblent et ont votre voix. Au-delà de la fonctionnalité d'avatar, en ce qui concerne le montage vidéo pour modifier l'audio et la parole, nous continuons à tester cette fonctionnalité et à mieux comprendre comment nous pouvons la mettre à la disposition des utilisateurs de manière responsable.
Toutes les vidéos créées avec Omni comportent notre filigrane numérique SynthID, imperceptible à l'œil nu. Vous pouvez facilement vérifier que les vidéos ont été générées avec Gemini Omni via l'application Gemini, Gemini dans Chrome et la recherche Google. Vous pouvez en savoir plus sur la manière dont nous développons nos outils de transparence et de vérification des contenus pour vous aider à comprendre comment les contenus ont été créés et modifiés sur le Web dans notre article de blog.
Essayez Gemini Omni dès maintenant
Aujourd'hui, nous lançons le premier modèle de la famille Omni : Gemini Omni Flash. Gemini Omni Flash est déployé dès aujourd'hui pour tous les abonnés Google AI Plus, Pro et Ultra à travers le monde via l'application Gemini et Google Flow. Il est également déployé gratuitement pour les utilisateurs de YouTube Shorts et de l'application YouTube Create à partir de cette semaine.
Dans les semaines à venir, nous le déploierons également auprès des développeurs et des entreprises via des API.
Source : Annonce de Gemini Omni
Et vous ?
Pensez-vous que cette annonce est crédible ou pertinente ?
Quel est votre avis sur le sujet ?Voir aussi :
Google lance Gemini 3.5 Flash, son modèle d'IA le plus performant pour la programmation, la création d'agents IA autonomes, la gestion de projets de recherche ou le développement de systèmes d'exploitation
Alibaba Cloud lance la série de modèles d'IA Qwen3.5-Omni, dotée de fonctionnalités multilingues et omnimodales, notamment la compréhension du texte, des images, de l'audio et des contenus audiovisuels
OpenAI lance ChatGPT Images 2.0 et le nouveau modèle gpt-image-2 offrant un raisonnement natif, une résolution 2K et une cohérence multi-images. ChatGPT « réfléchit » désormais avant de dessiner
Vous avez lu gratuitement 3 217 articles depuis plus d'un an.
Soutenez le club developpez.com en souscrivant un abonnement pour que nous puissions continuer à vous proposer des publications.
Soutenez le club developpez.com en souscrivant un abonnement pour que nous puissions continuer à vous proposer des publications.