![](https://www.developpez.com/images/logos/openai.png)
Une vidéo du nouveau générateur d'IA Sora d'OpenAI est devenue virale sur les réseaux sociaux, mettant en scène une gymnaste qui se voit pousser des membres supplémentaires et perd brièvement la tête au cours de ce qui semble être une routine au sol de style olympique. Il s'avère que les erreurs de synthèse absurdes de la vidéo laissent entrevoir des détails techniques sur le fonctionnement des générateurs de vidéos d'IA et sur la manière dont ils pourraient s'améliorer à l'avenir.
Mais avant d'entrer dans les détails, jetons un coup d'œil à la vidéo.
[TWITTER]<blockquote class="twitter-tweet"><p lang="en" dir="ltr">As cool as the new Sora is, gymnastics is still very much the Turing test for AI video.<br><br>1/4 <a href="https://t.co/X78dNzusNU">pic.twitter.com/X78dNzusNU</a></p>— Deedy (@deedydas) <a href="https://twitter.com/deedydas/status/1866509455896260813?ref_src=twsrc%5Etfw">December 10, 2024</a></blockquote> <script async src="https://platform.twitter.com/widgets.js" charset="utf-8"></script> [/TWITTER]
Dans la vidéo, on voit ce qui ressemble à un exercice de gymnastique au sol. Le sujet de la vidéo se retourne et s'agite tandis que de nouvelles jambes et de nouveaux bras émergent et se transforment rapidement et de manière fluide à partir de son corps qui virevolte et se transforme. À un moment donné, elle perd sa tête, qui se rattache spontanément à son corps.
[TWITTER]<blockquote class="twitter-tweet"><p lang="en" dir="ltr">Attempt 2.<br><br>2/4 <a href="https://t.co/YuhQLLdj8d">pic.twitter.com/YuhQLLdj8d</a></p>— Deedy (@deedydas) <a href="https://twitter.com/deedydas/status/1866509491497472071?ref_src=twsrc%5Etfw">December 10, 2024</a></blockquote> <script async src="https://platform.twitter.com/widgets.js" charset="utf-8"></script> [/TWITTER]
« Aussi cool que soit la nouvelle Sora, la gymnastique reste le test de Turing pour les vidéos d'IA », a écrit l'investisseur en capital-risque Deedy Das lorsqu'il a partagé la vidéo sur X. La vidéo a inspiré de nombreuses réactions, comme cette réponse à un message similaire sur Bluesky : « Bonjour, expert en gymnastique ! Ce n'est pas drôle, les gymnastes ne font cela que lorsqu'ils sont dans une situation de détresse extrême ».
Das a confirmé qu'il avait généré la vidéo avec Sora. Il a également fourni l'invite, qui était très longue et divisée en quatre parties, générée par Claude d'Anthropic, en utilisant des instructions complexes telles que « La gymnaste s'élance depuis le coin arrière droit, en prenant position avec son pied droit pointé vers l'arrière en position B-plus ».
« Je sais depuis six mois, en jouant avec des modèles texte-vidéo, qu'ils ont des difficultés avec les mouvements physiques complexes comme la gymnastique », a expliqué Das lors d'une conversation. « J'ai dû l'essayer [avec Sora] parce que la cohérence du personnage semblait améliorée. Dans l'ensemble, il s'agit d'une amélioration, car auparavant, le gymnaste se téléportait ou changeait de tenue au milieu du saut, mais dans l'ensemble, cela reste tout à fait horrible. Nous espérions que les vidéos d'IA apprendraient la physique par défaut, mais ce n'est pas encore le cas ! »
Pourquoi l’IA échoue-t-elle dans ces contextes ?
Ces anomalies ne sont pas simplement des erreurs esthétiques : elles illustrent les limites des algorithmes d'apprentissage machine. Les modèles d’IA sont entraînés sur des ensembles de données souvent incomplets ou biaisés. Dans le cas des vidéos de gymnastique, les algorithmes semblent avoir manqué d'exemples réalistes pour comprendre les contraintes biologiques du corps humain.
En outre, les systèmes d'IA se concentrent généralement sur la reproduction visuelle sans nécessairement intégrer les lois fondamentales de la biomécanique ou de la physique. Cela mène à des résultats étranges, où l'humain devient une sorte de marionnette numérique, dépourvue de réalisme et d’humanité.
Lorsque l'on examine l'échec de la vidéo, il faut d'abord se demander comment Sora « sait » comment créer quelque chose qui ressemble à une routine de gymnastique. Au cours de la phase d'entraînement, lorsque le modèle Sora a été créé, OpenAI a introduit des exemples de vidéos de routines de gymnastique (parmi de nombreux autres types de vidéos) dans un réseau neuronal spécialisé qui associe la progression des images à des descriptions textuelles de celles-ci.
Ce type d'entraînement est une phase distincte qui a lieu une fois avant la publication du modèle. Par la suite, lorsque le modèle terminé fonctionne et que vous donnez à un modèle de synthèse vidéo comme Sora un message écrit, il s'appuie sur les associations statistiques entre les mots et les images pour produire une sortie prédictive. Il fait continuellement des prédictions sur l'image suivante en se basant sur la dernière image de la vidéo. Mais Sora a une autre astuce pour tenter de préserver la cohérence au fil du temps. « En donnant au modèle la possibilité de prévoir plusieurs images à la fois, lit-on dans la Sora System Card d'OpenAI, nous avons résolu un problème difficile qui consiste à s'assurer qu'un sujet reste le même même même s'il disparaît temporairement du champ de vision ».
Peut-être pas encore tout à fait résolu. Dans ce cas, les mouvements rapides des membres posent un problème particulier lorsqu'il s'agit de prédire correctement l'image suivante. Le résultat est un amalgame incohérent de séquences de gymnastique montrant le même gymnaste effectuant des sauts et des pirouettes en courant, mais Sora ne sait pas dans quel ordre les assembler parce qu'il s'appuie sur des moyennes statistiques de mouvements corporels très différents dans ses données d'entraînement relativement limitées de vidéos de gymnastique, qui n'incluaient probablement pas non plus de précision au niveau des membres dans leurs métadonnées descriptives.
Sora ne sait rien non plus de la physique ou de la façon dont le corps humain devrait fonctionner. Il s'appuie sur des associations statistiques entre les pixels des vidéos de son ensemble de données d'apprentissage pour prédire l'image suivante, avec un peu d'anticipation pour garder les choses plus cohérentes.
Ce problème n'est pas propre à Sora. Tous les générateurs de vidéos d'IA peuvent produire des résultats complètement absurdes lorsque vos invites vont trop loin par rapport à leurs données d'entraînement.
Ashton Kutcher a récemment déclaré que nous serions bientôt capables de générer un film entier à l’aide de l’IA
Ashton Kutcher considère Sora, l'outil de vidéo générative d'OpenAI, comme l'avenir de la réalisation de films. « J'ai une version bêta et c'est assez incroyable », a déclaré Ashton Kutcher au sujet de la plateforme lors d'une récente conversation avec l'ancien PDG de Google, Eric Schmidt, au Berggruen Salon de Los Angeles. Kutcher n'est pas seulement une idole de l'écran, c'est un investisseur technologique actif et impliqué, qui possède son propre fonds de capital-risque et a fait une série d'investissements dans le domaine.
Il a ajouté : « Vous pouvez générer toutes les séquences que vous voulez. Vous pouvez créer de bonnes vidéos de 10 ou 15 secondes qui ont l'air très réelles. Il commet encore des erreurs. Il ne comprend pas encore tout à fait la physique. Mais si vous comparez la génération qui existait il y a un an à celle de Sora, vous constatez qu'elle a fait des bonds en avant. En fait, il contient des séquences que l'on pourrait facilement utiliser dans un grand film ou une émission de télévision ».
Kutcher a ajouté qu'en jouant avec le logiciel, il a demandé à Sora de créer des images d'un coureur essayant d'échapper à une tempête de sable dans le désert. « Je n'ai pas eu besoin d'engager un département CGI pour le faire », a déclaré Kutcher. « En cinq minutes, j'ai créé la vidéo d'un ultramarathonien courant dans le désert et poursuivi par une tempête de sable. Et cela ressemble exactement à cela ».
Kutcher a déclaré que les plateformes de génération de vidéos comme Sora sont sur le point d'être améliorées de manière exponentielle : « Vous serez en mesure d'obtenir le rendu d'un film entier. Il vous suffira de trouver une idée de film, puis d'écrire le scénario, de l'introduire dans le générateur vidéo et de générer le film », a-t-il déclaré. « Au lieu de regarder un film conçu par quelqu'un d'autre, je peux générer et regarder mon propre film ».
Et de poursuivre : « Ce qui va se passer, c'est qu'il y aura plus de contenu qu'il n'y a d'yeux sur la planète pour le consommer. Par conséquent, tout contenu n'aura de valeur que dans la mesure où les gens le consommeront. Ainsi, pour catalyser la version "water cooler" de quelque chose de bien, la barre va devoir être placée très haut, parce que pourquoi allez-vous regarder mon film alors que vous pourriez simplement regarder votre propre film ? »
Pour le moment, nous n'en sommes pas encore là.
« Nous verrons des acteurs générés par IA qui ne demandent pas de salaire »
En 2023, une étude a révélé que 96% des entreprises de divertissement et de médias prévoient d’augmenter leurs dépenses en IA générative, ce qui les place en tête des secteurs les plus innovants dans ce domaine.
« Les entreprises des secteurs du divertissement, de la technologie et des produits de consommation sont à l'avant-garde des plans visant à augmenter les dépenses génératives en IA », a déclaré Lucidworks, une société de recherche et d'analyse qui a commandé le rapport.
Le contexte était assez tendu : les scénaristes et les acteurs d'Hollywood étaient en grève depuis plus de 100 jours. L'entrepreneur, investisseur et analyste Jeremiah Owyang a alors déclaré :
Tandis qu'Hollywood fait grève, 96 % des entreprises de divertissement augmentent leurs dépenses en IA générative.
Cela commencera par l'écriture du scénario. Mais ensuite, nous verrons des acteurs synthétiques ou des acteurs générés - pas de grèves, pas de chèques de paie, pas de congés de maladie, ils ne vieilliront jamais.
Cela commencera par l'écriture du scénario. Mais ensuite, nous verrons des acteurs synthétiques ou des acteurs générés - pas de grèves, pas de chèques de paie, pas de congés de maladie, ils ne vieilliront jamais.
Sources : Sora System Card, Bluesky, vidéos dans le texte
Et vous ?
![:fleche:](https://www.developpez.net/forums/images/smilies/fleche.gif)
![:fleche:](https://www.developpez.net/forums/images/smilies/fleche.gif)
![:fleche:](https://www.developpez.net/forums/images/smilies/fleche.gif)