Ces dernières années, les vidéos générées par l'intelligence artificielle (IA) ont fait leur chemin dans des domaines aussi variés que le cinéma, la publicité, et même le sport. Cependant, une récente controverse centrée sur des vidéos d’athlètes de gymnastique générée par l'outil Sora d'OpenAI met en lumière une des limites majeures de ces technologies : leur incapacité à recréer de manière crédible la complexité du corps humain.Une vidéo du nouveau générateur d'IA Sora d'OpenAI est devenue virale sur les réseaux sociaux, mettant en scène une gymnaste qui se voit pousser des membres supplémentaires et perd brièvement la tête au cours de ce qui semble être une routine au sol de style olympique. Il s'avère que les erreurs de synthèse absurdes de la vidéo laissent entrevoir des détails techniques sur le fonctionnement des générateurs de vidéos d'IA et sur la manière dont ils pourraient s'améliorer à l'avenir.
Mais avant d'entrer dans les détails, jetons un coup d'œil à la vidéo.
As cool as the new Sora is, gymnastics is still very much the Turing test for AI video.
— Deedy (@deedydas) December 10, 2024
1/4 pic.twitter.com/X78dNzusNU
Dans la vidéo, on voit ce qui ressemble à un exercice de gymnastique au sol. Le sujet de la vidéo se retourne et s'agite tandis que de nouvelles jambes et de nouveaux bras émergent et se transforment rapidement et de manière fluide à partir de son corps qui virevolte et se transforme. À un moment donné, elle perd sa tête, qui se rattache spontanément à son corps.
Attempt 2.
— Deedy (@deedydas) December 10, 2024
2/4 pic.twitter.com/YuhQLLdj8d
« Aussi cool que soit la nouvelle Sora, la gymnastique reste le test de Turing pour les vidéos d'IA », a écrit l'investisseur en capital-risque Deedy Das lorsqu'il a partagé la vidéo sur X. La vidéo a inspiré de nombreuses réactions, comme cette réponse à un message similaire sur Bluesky : « Bonjour, expert en gymnastique ! Ce n'est pas drôle, les gymnastes ne font cela que lorsqu'ils sont dans une situation de détresse extrême ».
Das a confirmé qu'il avait généré la vidéo avec Sora. Il a également fourni l'invite, qui était très longue et divisée en quatre parties, générée par Claude d'Anthropic, en utilisant des instructions complexes telles que « La gymnaste s'élance depuis le coin arrière droit, en prenant position avec son pied droit pointé vers l'arrière en position B-plus ».
« Je sais depuis six mois, en jouant avec des modèles texte-vidéo, qu'ils ont des difficultés avec les mouvements physiques complexes comme la gymnastique », a expliqué Das lors d'une conversation. « J'ai dû l'essayer [avec Sora] parce que la cohérence du personnage semblait améliorée. Dans l'ensemble, il s'agit d'une amélioration, car auparavant, le gymnaste se téléportait ou changeait de tenue au milieu du saut, mais dans l'ensemble, cela reste tout à fait horrible. Nous espérions que les vidéos d'IA apprendraient la physique par défaut, mais ce n'est pas encore le cas ! »
Pourquoi l’IA échoue-t-elle dans ces contextes ?
Ces anomalies ne sont pas simplement des erreurs esthétiques : elles illustrent les limites des algorithmes d'apprentissage machine. Les modèles d’IA sont entraînés sur des ensembles de données souvent incomplets ou biaisés. Dans le cas des vidéos de gymnastique, les algorithmes semblent avoir manqué d'exemples réalistes pour comprendre les contraintes biologiques du corps humain.
En outre, les systèmes d'IA se concentrent généralement sur la reproduction visuelle sans nécessairement intégrer les lois fondamentales de la biomécanique ou de la physique. Cela mène à des résultats étranges, où l'humain devient une sorte de marionnette numérique, dépourvue de réalisme et d’humanité.
Lorsque l'on examine l'échec de la vidéo, il faut d'abord se demander comment Sora « sait » comment créer...
La fin de cet article est réservée aux abonnés. Soutenez le Club Developpez.com en prenant un abonnement pour que nous puissions continuer à vous proposer des publications.