La startup Runway aurait récupéré illégalement des milliers de vidéos YouTube et des versions piratées de films protégés par des droits d'auteur sans autorisation pour former son système d'IA de génération de vidéo. Un rapport, basé sur une feuille de calcul interne de Runway, révèle que l'entreprise a formé son modèle Gen-3 en utilisant du contenu YouTube provenant de chaînes telles que Disney, Netflix, Linus Tech Tips et des médias populaires. Runway a agi sans le consentement explicite des créateurs, violant potentiellement leurs droits d'auteur. En outre, YouTube a déjà déclaré que ce comportement viole clairement les règles de la plateforme.L'ensemble de données de formation de Runway comprendrait des milliers de vidéos YouTube
Runway est une entreprise spécialisée dans l'IA qui a reçu des millions de dollars de financement de la part d'Alphabet, la société mère de Google, et de Nvidia, le principal fournisseur de puces destinées à la formation de l'IA. Runway a créé des outils d'IA qui permettent aux utilisateurs de réaliser des vidéos d'apparence réaliste, ainsi que des vidéos qui capturent un type d'animation particulier. Le dernier outil de Runway, Gen-3 Alpha, a été lancé en juin et peut créer des vidéos dans tous les styles imaginables. Et comme tout modèle d'IA, Gen-3 Alpha a besoin d'ingérer un large éventail de contenus dans le but de se former.
Lorsque le cofondateur de Runway, Anastasis Germanidis, a été interrogé en juin sur l'origine des données de formations de Gen-3, il n'a pas donné une réponse claire. « Nous avons une équipe de recherche interne qui supervise toutes nos formations et nous utilisons des ensembles de données internes pour former nos modèles », a déclaré Germanidis. Mais une feuille de calcul interne ayant fait l'objet de fuite a révélé que Runway a utilisé illégalement des milliers de vidéos YouTube pour l'occasion. En outre, le rapport ajoute que l'ensemble de données de formation de Gen-3 comprend également des versions de films piratés.
La feuille de calcul a été obtenue par 404 Media. Une évaluation du document et des tests sur Gen-3 ont permis de constater qu'une partie des données de formation du modèle est constituée de contenus populaires provenant des chaînes YouTube de milliers d'entreprises de médias et de divertissement, dont The New Yorker, VICE News, Pixar, Disney, Netflix, Sony, et d'autres encore. Le jeu de données comprend aussi des liens vers des chaînes et des vidéos individuelles appartenant à des influenceurs et créateurs de contenu populaires, comme Benjamin Hardman, Sam Kolder, Marques Brownlee, Casey Neistat, et bien d'autres.
Outre les chaînes YouTube, l'analyse a également révélé que l'ensemble de données contenait des liens vers des sites de piratage tels que KissCartoon, qui permet de regarder gratuitement des animes et d'autres contenus animés. L'on ignore si Runway a utilisé toutes les vidéos de cette feuille de calcul pour entraîner son modèle Gen-3, et il se peut que nous ne le sachions jamais. Un ancien employé présumé de Runway a déclaré à la publication que l'entreprise utilisait la feuille de calcul pour marquer les listes de vidéos qu'elle voulait dans sa base de données. L'entreprise télécharge ensuite sans être détectée par YouTube.
Sundar Pichai, PDG d'Alphabet, la société mère de Google et de YouTube, a déclaré que l'extraction de données sur YouTube pour former des modèles d'IA violait les conditions d'utilisation de la plateforme. En avril dernier, le directeur de YouTube, Neal Mohan, a souligné que ce type d'utilisation des données était expressément interdit par les conditions d'utilisation de YouTube. Il reste à voir si cela modifie le principe de "fair use" sur lequel s'appuient habituellement les entreprises d'IA collectant des données, y compris Google dans ses propres litiges. Il sera aussi intéressant de voir quelle réaction aura Google dans cette affaire....
La fin de cet article est réservée aux abonnés. Soutenez le Club Developpez.com en prenant un abonnement pour que nous puissions continuer à vous proposer des publications.