La nouvelle génération du générateur vidéo d'OpenAI est arrivée. Sora 2, le dernier modèle de génération vidéo et audio de l'entreprise, présente des capacités vidéo photoréalistes améliorées, et une nouvelle application Sora est présentée comme une plateforme sociale permettant aux utilisateurs de partager, de remixer et de découvrir des vidéos générées par l'IA. S'appuyant sur la technologie précédente de génération d'images par l'IA, Sora 2 permet aux utilisateurs de créer des « caméos », ou des apparitions d'invités, d'eux-mêmes et d'autres personnes dans des vidéos. L'application Sora, alimentée par Sora 2, est désormais disponible au téléchargement sur les systèmes iOS, mais l'accès au service reste limité aux invitations.Depuis quelques mois, une nouvelle vague de contenus inonde les réseaux sociaux : les vidéos générées par intelligence artificielle, étranges, absurdes, parfois dérangeantes, mais irrésistiblement virales. Ce phénomène a été baptisé "AI slop", littéralement la « bouillie numérique produite par IA ». Le terme n’est pas anodin : il reflète une perception de contenu industriel, bâclé, produit à la chaîne, qui n’a pas de valeur artistique intrinsèque mais qui exploite les failles des algorithmes de recommandation pour générer du clic… et de l’argent.
Pour les professionnels du numérique, ce raz-de-marée est révélateur : il illustre à la fois la puissance des outils IA grand public, la fragilité des plateformes face à la manipulation algorithmique, et la mutation du business model de la création en ligne. C'est dans ce contexte que la nouvelle génération du générateur vidéo d'OpenAI est arrivée. Sora 2, le dernier modèle de génération vidéo et audio de l'entreprise, présente des capacités vidéo photoréalistes améliorées, et une nouvelle application Sora est présentée comme une plateforme sociale permettant aux utilisateurs de partager, de remixer et de découvrir des vidéos générées par l'IA.
Lancé en février 2024, Sora est un modèle texte-vidéo développé par OpenAI. Grâce à des modèles d'IA de pointe, cette IA peut générer des vidéos de haute qualité, fluides, cohérentes, réalistes et immersives, basées sur de courtes invites descriptives, ainsi que prolonger les vidéos existantes vers l'avant ou vers l'arrière dans le temps. Sora peut générer des vidéos avec une résolution allant jusqu'à 1920 x 1080 et jusqu'à 1080 x 1920.
Présenté lors d'un livestream, Sora 2 est le dernier né d'une vague d'outils d'IA générative multimédia permettant aux utilisateurs de créer des images, des vidéos et des sons de plus en plus réalistes. S'appuyant sur la technologie précédente de génération d'images par l'IA, Sora 2 permet aux utilisateurs de créer des « caméos », ou des apparitions d'invités, d'eux-mêmes et d'autres personnes dans des vidéos. Cette fonction exige des utilisateurs qu'ils fassent un enregistrement vidéo et audio unique d'eux-mêmes pour vérifier leur identité.
À l'instar de nombreuses plateformes de médias sociaux existantes, l'application Sora proposera un flux algorithmique affichant des vidéos adaptées aux intérêts des utilisateurs, en fonction des personnes avec lesquelles ils interagissent et des sujets qu'ils sont susceptibles d'aborder. Le flux comprendra un système de « classement orientable » permettant aux utilisateurs de personnaliser davantage ce qu'ils veulent voir, selon les détails publiés par OpenAI.
Sora 2 s'appuie sur le modèle original de Sora publié en février 2024. Alors que la version initiale de Sora peinait parfois à représenter des mouvements réalistes, comme un ballon de basket rebondissant sur un panneau arrière, OpenAI a déclaré que Sora 2 « obéit mieux aux lois de la physique ». Les démonstrations présentées sur le site web d'OpenAI montrent des plans d'action photoréalistes de cascades telles que des culbutes de gymnastique et des figures de skateboard, bien qu'un clip d'un artiste martial se produisant dans un étang de carpes koï montre un bâton qui ne semble pas tenir sa forme.
Sora 2 semble également capable de générer de la parole, ce que la version précédente de Sora était incapable de faire par elle-même. « Le modèle est loin d'être parfait et comporte de nombreuses erreurs, mais il valide le fait que l'augmentation de la taille des réseaux neuronaux sur les données vidéo nous rapprochera de la simulation de la réalité », a écrit OpenAI dans son communiqué. Gabriel Petersson, chercheur à l'OpenAI, a présenté les capacités de...
La fin de cet article est réservée aux abonnés. Soutenez le Club Developpez.com en prenant un abonnement pour que nous puissions continuer à vous proposer des publications.