Developpez.com - Rubrique IA

Le Club des Développeurs et IT Pro

Sora : OpenAI lance un modèle d'IA qui serait capable de créer une vidéo avec des scènes réalistes et imaginatives à partir d'instructions textuelles,

Mais la durée est limitée à 60 secondes

Le 2024-02-16 10:49:29, par Mathis Lucas, Chroniqueur Actualités
OpenAI a dévoilé jeudi un nouveau grand modèle de langage capable de générer des vidéos à partir de textes. Le nouvel outil d'IA, appelé Sora d'après mot japonais signifiant "ciel", est capable de générer des séquences réalistes d'une durée maximale de 60 secondes qui respectent les instructions de l'utilisateur en ce qui concerne le sujet et le style. OpenAI a ajouté que le modèle est capable de créer une vidéo à partir d'une image fixe ou d'ajouter de nouveaux éléments à des séquences existantes. Sora se place comme un nouveau rival du modèle d'IA Lumiere de Google qui est également capable de créer un contenu vidéo à partir de textes ou d'images.

Après la génération de texte et d'images, OpenAI se lance sur le marché de la génération de vidéo avec Sora. Selon le laboratoire d'IA de San Francisco, il s'agit d'une étape importante, car cela permet à l'IA de comprendre et de simuler le monde physique en mouvement. « Nous apprenons à l'IA à comprendre et à simuler le monde physique en mouvement, dans le but de former des modèles qui aident les gens à résoudre des problèmes nécessitant une interaction avec le monde réel », affirme OpenAI dans un billet de blogue. Sora intervient plus d'un an après le lancement canon de son chatbot d'IA ChatGPT (GPT-3.5).

Selon le billet de blogue d'OpenAI, Sora génère des vidéos avec un réalisme inédit et des détails précis. « Sora est capable de créer des scènes complexes avec plusieurs personnages, des types de mouvements spécifiques et des détails précis sur le sujet et l'arrière-plan. Le modèle peut comprendre comment les objets existent dans le monde physique, ainsi qu'interpréter avec précision les accessoires et générer des personnages convaincants qui expriment des émotions vibrantes », indique le billet de blogue. OpenAI a déclaré que pour l'instant, Sora ne peut générer que des séquences vidéo qui durent au plus une minute.

Une vidéo parmi plusieurs exemples présentés par OpenAI est basée sur l'invite : « une bande-annonce de film présentant les aventures d'un homme de l'espace de 30 ans portant un casque de moto en laine tricotée rouge, ciel bleu, désert de sel, style cinématographique, filmé sur pellicule 35 mm, couleurs vives ». Sora peut aussi générer une vidéo à partir d'une image fixe, ainsi que remplir les images manquantes d'une vidéo existante ou l'étendre. Les autres démonstrations d'OpenAI comprennent une scène aérienne de la Californie pendant la ruée vers l'or, une vidéo qui met en scène une chute de neige à Tokyo, etc.

Nombre d'entre elles présentent des signes révélateurs de l'IA - comme un sol qui bouge de manière suspecte dans une vidéo d'un musée - et OpenAI indique que "le modèle peut avoir du mal à simuler avec précision la physique d'une scène complexe". Cela dit, les résultats sont dans l'ensemble assez impressionnants. « Pour moi, il semble évident qu'OpenAI est en avance sur tout le monde dans tous les modèles d'IA existants : image, texte, vidéo, audio, etc. Ils n'ont tout simplement pas encore publié leurs meilleurs produits. Ils n'ont tout simplement pas encore publié leurs meilleurs produits », affirme un critique.

Selon les critiques, Sora peut révolutionner des domaines comme l'animation 3D, le cinéma, et plus encore. « La capture de mouvements fonctionne bien parce qu'il s'agit de mouvements réels, mais chaque fois que l'on essaie d'animer des humains et des animaux, même dans des films en images de synthèse à gros budget, c'est toujours manifestement faux au bout du compte. Il y a tellement de choses subtiles qui se produisent en matière d'accélération et de décélération de toutes les différentes parties d'un organisme, qu'aucun animateur n'y parvient jamais à 100 % », a fait remarquer un critique. Ce dernier ajoute :

« Aucun algorithme d'animation ne parvient à rendre les choses vraiment crédibles, mais seulement à les rendre moins mauvaises. Mais les vidéos générés par Sora semblent rendre les choses tout à fait crédibles, tant pour les humains que pour les animaux. C'est incroyable. Et bien entendu, il ne faut pas oublier qu'il s'agit d'espaces 3D tout à fait crédibles, avec une permanence de l'objet apparemment totale. Contrairement à d'autres efforts que j'ai vus et qui consistent essentiellement à animer brièvement une scène en 2D pour lui donner une vague apparence de 3D ». D'autres attendent les améliorations futures.

Sora n'est actuellement accessible qu'aux "red teamers" qui évaluent le modèle en fonction des dommages et des dangers potentiels. Les experts vont "tester" le produit, c'est-à-dire vérifier s'il est susceptible de contourner les garde-fous d'OpenAI, qui interdisent "la violence extrême, le contenu sexuel, l'imagerie haineuse, l'image d'une célébrité ou la propriété intellectuelle d'autrui". OpenAI offre également un accès à certains artistes visuels, concepteurs et cinéastes afin de recueillir leurs commentaires. L'entreprise reconnaît que le modèle d'IA actuel peut ne pas simuler correctement la physique d'une scène complexe.

Il pourrait également ne pas interpréter correctement certains cas de cause à effet. Les vidéos portent un filigrane indiquant qu'elles ont été réalisées par l'IA. Cette approche vise à empêcher les abus potentiels, comme la création de deepfakes visant à tromper les internautes ou un public cible. Au début du mois, OpenAI a ajouté des filigranes à son outil de conversion de texte en image DALL-E 3, mais précise qu'ils peuvent être facilement supprimés. À l'instar de ses autres produits d'IA, OpenAI devrait faire face aux conséquences des fausses vidéos photoréalistes créées par l'IA qui seront prises pour des vraies.

Il y a quelques années, les générateurs d'images tels que Midjourney étaient à la pointe de la capacité des modèles à transformer les mots en images. Mais récemment, la vidéo a commencé à s'améliorer à un rythme remarquable : des entreprises comme Runway et Pika ont présenté leurs propres modèles de génération de vidéo, et le modèle Lumiere de Google semble être l'un des principaux concurrents d'OpenAI dans ce domaine également. Similaire à Sora, le modèle Lumiere offre aux utilisateurs des outils de conversion de texte en vidéo et leur permet également de créer des vidéos à partir d'une simple image fixe.

OpenAI n'a pas révélé la quantité d'images utilisées pour entraîner Sora ni l'origine des vidéos d'entraînement, se contentant d'indiquer que le corpus contenait des vidéos à la fois accessibles au public et sous licence de détenteurs de droits d'auteur. L'entreprise a été poursuivie à plusieurs reprises pour violation présumée des droits d'auteur lors de l'entraînement de ses outils d'IA générative, qui digèrent des quantités gargantuesques de matériel récupéré sur Internet et imitent les images ou le texte contenus dans ces ensembles de données.

Par ailleurs, OpenAI se prépare à lancer GPT-5, la prochaine génération de son grand modèle de langage GPT (Generative Pre-trained Transformer). Selon le PDG Sam Altman, GPT-5 sera plus intelligent, plus rapide, plus polyvalent et meilleur dans toutes les tâches que GPT-4. Il a déclaré que GPT-5 sera un modèle d'IA multimodal beaucoup plus avancé qui sera doté d'une capacité de raisonnement qui lui permettra de réaliser des tâches plus complexes.

Source : OpenAI

Et vous ?

Quel est votre avis sur le sujet ?
Que pensez-vous du modèle d'IA de génération de vidéo Sora d'OpenAI ?
Quelle est votre appréciation des exemples de vidéos générées par le modèle Sora ?
Quels pourraient être les impacts de Sora et de ses rivaux sur l'industrie du cinéma et de l'animation ?
Quels pourraient être leurs impacts sur les travailleurs de cette industrie ? Vont-ils être massivement remplacés par l'IA ?

Voir aussi

Meta annonce Make-A-Video, qui génère de la vidéo à partir de texte, via une description textuelle ou d'une image existante, Make-A-Video peut rendre une vidéo à la demande

DALL-E 3 est maintenant disponible dans ChatGPT Plus et Enterprise, permettant aux abonnés payants de ChatGPT d'utiliser le générateur d'images

« GPT-5 sera plus intelligent, plus rapide, plus polyvalent et meilleur dans toutes les tâches que GPT-4 », affirme Sam Altman qui appelle une nouvelle fois à une réglementation mondiale sur l'IA
  Discussion forum
11 commentaires
  • melka one
    Membre expérimenté
    Quel est votre avis sur le sujet ?
    le mot qui me vient en tête c'est illogique il y a rien de rationnel dans le clip, que de l’étrange
  • totozor
    Membre expert
    Envoyé par Anthony
    Quel est votre avis sur le sujet ?
    Pourquoi faire un clip en IA quand tu as les moyens d'en faire produire un? (Pour un petit groupe qui a peu de moyens je comprends mais lui...)
    Pour ce que je penses que sa qualité, Freak on a leash de Korn (1999) partait de la même idée et a une composition plus pertinente.
    Les découpages sont aléatoires et les transitions dignes de Powerpoint.
    Finalement je suis rassuré que ça soit fait par une IA parce que je vois des clips amateurs mieux travaillés.
    En tant qu'artiste je refuserais qu'on diffuse ça sur ma musique.
  • Jules34
    Membre chevronné
    Mon avis ?

    Comme d'habitude on présente un truc nul comme étant de l'or en barre, histoire d'entretenir le buzz.
  • TotoParis
    Membre expérimenté
    BOYCOTT !
  • _toma_
    Membre averti
    Quel est votre avis sur le sujet ?
    Quand j'ai vu le post il y a quelques jours, je me suis dis que c'était tellement putaclic que je m'abstiendrai de voir la vidéo pour pas leur donner un clic de plus.
    Et les quelques commentaires qu'il y a eu entre temps me confortent dans mon idée.
  • DegubError
    Membre régulier
    techniquement c'est intéressant l'avancé que prend l'IA

    après concernant les droits d'auteurs ... combien de chance que l'IA génère un visage existant (ou en reprend un glané sur le net) ... Vous voudriez êtes dans un clip sans le savoir ??

    ce qui a de bien avec les acteurs c'est qu'ils ont choisi ce métier et son conscient que leur image va être diffusé. Avez-vous envie de voir votre visage sur un corps qui n'est pas le votre dans un clip en train de chevaucher, en maillot de bain, une licorne au milieu d'une foule de cow-boy habillés en rose (c'est un exemple hein) ?? et que ce clip fasse des millions de vue ... comment l'IA pourra garantir que les personnes qu'elle crée soit réellement fictif ?? (personne passé, présente et à venir) ... elle ne pourra pas.
  • xavier.valentin
    Membre à l'essai
    Il est sacrément perché le clip ^^